Teoría del Caos y Observabilidad – Gigaom

Corina GuzmanAbr 13, 2024

¿Puede la observabilidad hacer frente al caos de TI que enfrentan tantas empresas hoy en día? Es una cuestión que vale la pena profundizar.

Caos TI (Monitoreo, Observabilidad e Inteligencia)

El caos informático es una función de seguimiento, observabilidad e inteligencia. Sí, agregué inteligencia, pero no estoy hablando de inteligencia artificial (IA), todavía. Así como el monitoreo ha generado más datos de los que los humanos pueden consumir, la observabilidad puede producir más observaciones de las que cualquiera puede comprender. La sobrecarga de información observacional es particularmente cierta cuando entran en juego múltiples herramientas de observación.

El aprendizaje automático puede ayudar, pero las preguntas que debemos responder están cambiando. Una vez quisimos saber si los servicios en las nubes públicas funcionaban y cómo combinar esos datos con el ruido en tierra. Ahora, las preguntas han cambiado a qué hacer con las observaciones. La automatización le permite reiniciar objetos con bajo rendimiento y ampliar la memoria o la potencia informática según demanda, pero hay que almacenar los datos en algún lugar y el almacenamiento no es gratuito. Las principales soluciones de observabilidad ahora incluyen comparaciones de costos en tiempo real entre proveedores de nube. Las mejores herramientas de observabilidad tienen capacidades de operaciones financieras (FinOps) para encontrar recursos subutilizados, sobreutilizados y abandonados en la nube (pública o privada).

La herramienta de observabilidad tiene datos suficientes para predecir estados futuros. Desafortunadamente, la teoría del caos no ayuda. Los datos a nivel de elemento no existen a nivel observable. El análisis de regresión, los ajustes de mínimos cuadrados y algoritmos más complicados permiten predecir el caos. Cuantos más datos haya, más precisas serán las predicciones, pero almacenar datos es caro. Los proveedores están abordando los problemas con licencias basadas en el consumo, niveles de almacenamiento de menor costo y otros métodos para hacer frente a la ola de datos necesarios para la observabilidad.

El caos informático nunca terminará, pero al menos podemos intentar gestionarlo. La nueva esperanza es la IA generativa (GenAI), tal vez.

Caos, observabilidad e inteligencia artificial

La función del caos contiene los pasos que van desde el monitoreo hasta la observabilidad y la inteligencia y requiere nuevos enfoques para responder preguntas. El monitoreo nos dice el estado de los objetos, la observabilidad puede crear relaciones y proporcionar una metavisión de los elementos, y las preguntas inteligentes son posibles con la ayuda de GenAI.

Pregunte a una herramienta de observabilidad cuándo ocurrirá la próxima interrupción y es posible que obtenga una respuesta. Pídele que automatice un modo de fallo conocido y realice un baile perfecto. Pregunte a una herramienta de observabilidad si la empresa está bien y no obtendrá nada. La pregunta está más allá de sus capacidades. Las herramientas de observabilidad tal como existen hoy se centran en TI, incluidos los desarrolladores en los canales de DevOps, los miembros del equipo de gestión de operaciones que trabajan para mantener las luces encendidas y los ingenieros de confiabilidad del sistema (SRE) que acaban de crearse (según mi estándar de más de 40 años). . La observabilidad explica los datos del seguimiento.

Ingresa GenAI, la gran roca en el estanque que crea su propia versión del caos. En la teoría del caos, un elemento puede hacer que todo un sistema caiga al límite. Las matemáticas lo dejan muy claro (lo haré en un momento). Entonces, ¿qué pasa después?

GenAI ya está mejorando la TI, desde mejores chatbots hasta consumir todos los datos y proporcionar información valiosa. Sin embargo, GenAI es completamente nueva y disruptiva. Pocos proveedores de observabilidad lo están utilizando con un efecto significativo ahora, y un número menor puede predecir los impactos en 24 a 26 meses.

La observabilidad puede reducir la devolución al caos y apuntar a un entorno de TI más tranquilo con GenAI en algún momento del futuro. La inteligencia real para la empresa llega cuando GenAI consume datos de todas las fuentes de la empresa, lo que permite preguntas inimaginables y un futuro en el que el tsunami de cambio creado por GenAI no perturba a la empresa.

Teoría del Caos: ¿Qué es?

He mencionado la teoría del caos varias veces. Veamos qué es. La teoría del caos es un tropo popular que permite a los escritores inventar situaciones aparentemente imposibles que los protagonistas deben superar o basar el concepto de una historia completa en el movimiento de un solo objeto. Si se puede decir que cualquier sistema a gran escala y fácilmente concebible encarna el caos, entonces la tecnología de la información destaca. El caos es el estado normal de la TI, especialmente en las grandes empresas. Yo haré los cálculos por ti.

Quédatelo. ¿Por qué escribo sobre matemáticas en un blog de TI?

Soy físico y, aunque llevo más de 40 años haciendo TI, confío en mi educación incluso para las cosas más mundanas. La observabilidad y la teoría del caos están relacionadas: el cómo y el por qué son esenciales cuando se analiza la empresa en su conjunto. Me vendría bien la entropía, pero la teoría del caos es más atractiva y más cercana a la realidad de un ecosistema de TI. Pasemos ahora a la discusión de las matemáticas esotéricas.

La teoría del caos tiene ecuaciones que ayudan a los matemáticos y físicos a analizar los sistemas que se estudian. En 1975, Robert May creó un modelo para ilustrar el comportamiento caótico de los sistemas dinámicos. Modifiqué el modelo de May para accidentes:

I_n+1 = r·yo_norte • (1 – yo_norte)

- I_norte
  - La proporción de la capacidad del sistema afectada por incidentes en un momento dado incluye la cantidad de incidentes, la gravedad o el impacto total en el sistema, y el valor oscila entre cero (sin impacto) y uno (impacto total o falla en todo el sistema). .
  - En un mundo perfecto, esto siempre es cero, pero de eso se trata la TI, donde el valor nunca es cero. Oh, pero nos esforzamos mucho. La NASA tiene algunos de los mejores métodos y procesos del mundo, pero el primer lugar que cuidaron después de la explosión del Challenger fue el código de seguridad del alcance, que podría hacer explotar el transbordador. Se consideró perfecto después de un examen multimillonario línea por línea.
- r
  - Esto representa la tasa de generación y resolución de incidentes, influenciada por factores como la complejidad del sistema, la frecuencia de los cambios y la eficacia de los procesos de gestión de incidentes. Los valores altos indican un sistema donde los incidentes se generan rápidamente o mal resueltos, lo que lleva a un sistema más caótico. Los valores más bajos sugieren un sistema estable donde los incidentes se gestionan de manera eficaz o son poco frecuentes.
  - En otro mundo perfecto, quizás en el multiverso, esto sería igual o menor que uno. En este mismo universo, los cerdos vuelan y nada se rompe jamás. Estoy seguro de que suceden otras cosas extrañas en esta utopía que le quitan brillo a toda la cuestión de la perfección.

En otra versión de la Tierra, puedo simular cada elemento de TI para identificar sistemas y procesos al borde del caos y curarlos mágicamente. La TI no crea dinosaurios, excepto en forma de computadoras centrales que ejecutan COBOL.

Bien, eso no sucede, pero puedo monitorear todos esos elementos y recopilar información sobre el estado (activado o desactivado), métricas (uso de memoria, rendimiento de la CPU) y más. Luego puedo enviar toda esa información a un equipo para determinar el nivel de caos del sistema y responder en consecuencia.

Ups, ¡BAM! Disponemos de otros recuentos de datos (la supervisión suele representar el 25 % del tráfico de red en una gran empresa).

La observabilidad se esfuerza por inferir el estado interno de un sistema a partir de sus resultados externos. Tenemos montones de datos pero no tenemos idea de lo que significan. La herramienta de observabilidad, ya sea específicamente para nubes, redes, almacenamiento o aplicaciones públicas y privadas, es una visión del caos.

La intersección de la ecuación de May y la observabilidad

La ecuación de May y la observabilidad se cruzan. Así es cómo:

- - Comprender el comportamiento del sistema: La observabilidad y la ecuación de May tienen como objetivo mejorar la comprensión de sistemas complejos. La observabilidad permite monitorear y conocer en tiempo real el estado de un sistema en función de sus resultados, mientras que la ecuación de May muestra cómo el comportamiento del sistema puede cambiar dramáticamente con pequeños cambios en los parámetros.
  - Previsibilidad y estabilidad: La ecuación de May resalta los límites de la previsibilidad en sistemas complejos debido a su sensibilidad a las condiciones iniciales. La observabilidad, por el contrario, es una herramienta para obtener información sobre el sistema. Aumenta la previsibilidad al permitir la detección temprana de problemas menores antes de que se conviertan en problemas importantes. Por lo tanto, el valor de «r» anterior evita que nuestro sistema explote en el caos.
  - Nos adaptamos al cambio: El mapa logístico de la ecuación de May muestra cómo los sistemas pueden pasar de regímenes estables a regímenes caóticos con un cambio de un parámetro. La observabilidad proporciona los medios para detectar y responder a estas transiciones, ofreciendo un método para ayudar a gestionar y mitigar los riesgos de entrar en estados caóticos.
  - Circuitos de retroalimentacion: La observabilidad puede actuar como un mecanismo de retroalimentación en sistemas de TI complejos, identificando cuándo un sistema se acerca a un régimen caótico. Esta retroalimentación puede informar ajustes a los parámetros del sistema para mantener los niveles deseados de rendimiento y estabilidad.

La tecnología nos afecta en casi todas partes: las visitas al médico, las noticias, las redes sociales, los refrigeradores e incluso nuestros automóviles (incluidos los de gasolina). El cambio en un parámetro puede poner de rodillas a una empresa. Pregúntele a AT&T acerca de un cambio de configuración simple que destruyó toda su red. Mire cómo British Airways tuvo que cancelar cientos de vuelos porque un componente de software falló después de un simple cambio.

Los sistemas de TI siempre están al borde del caos. Las herramientas de observabilidad son una forma de examinar el estado caótico de cualquier empresa de TI.

Los siguientes pasos

Para obtener más información, eche un vistazo a los informes de radar y criterios clave de observabilidad de la nube de GigaOm. Estos informes brindan una descripción general completa del mercado, describen los criterios que debe considerar en una decisión de compra y evalúan el desempeño de varios proveedores en función de esos criterios de decisión.

Si aún no es suscriptor de GigaOm, puede acceder a la investigación mediante una prueba gratuita.

Source link