Estabilidad operativa en sistemas de aprendizaje automático críticos para la misión

Las operaciones de tecnología de la información (TI) en las empresas han llegado a un nivel significativo de madurez organizativa. Las aplicaciones empresariales distribuidas y los sistemas intensivos en datos operan bajo estrictas regulaciones en entornos críticos. No obstante, a pesar de los avances en herramientas de monitoreo, persisten desafíos en la estabilidad operacional. Estos problemas se deben en gran medida a la dificultad de convertir la telemetría masiva en resultados operativos confiables, sin que esto dependa exclusivamente de la falta de datos.

La inteligencia artificial aplicada ha precipitado lo que los expertos llaman una crisis de explicabilidad. Aunque los modelos de máquina pueden detectar anomalías a gran escala, a menudo no explican por qué se debe realizar una operación particular. La automatización opaca es inaceptable en entornos estructurados, llevando a las industrias al dilema entre la opacidad algorítmica y las limitaciones humanas.

Los modelos tradicionales de TI se basaban en automatización heurística, con reglas y umbrales derivados de experiencias previas. Esta metodología, adecuada para sistemas predecibles, es ineficaz en operaciones dinámicas con fallas emergentes. Esto ha llevado a un aumento del tiempo medio de resolución (MTTR) y al agotamiento por alertas, considerándose estos problemas como sistémicos.

La transformación actual se mueve hacia operaciones autónomas impulsadas por inteligencia artificial, con riesgos si no se implementa una arquitectura adecuada. Es fundamental establecer un modelo de madurez que gestione la autonomía como un producto de ingeniería.

Un ejemplo es una organización global que, presionada por costos, adoptó la automatización a gran escala. Sin embargo, seguían enfrentando incidentes críticos debido al entorno fragmentado de monitoreo y cargas de trabajo en la nube en etapas iniciales. La inestabilidad y la falta de confianza en la automatización marcaron sus esfuerzos, evidenciando que la baja transparencia y las limitaciones presupuestarias los afectaban negativamente.

La solución fue implementar un modelo de referencia para AIOps, buscando transformar la resolución autónoma y gestionar restricciones. Los resultados fueron significativos: más de 130,000 tickets de TI fueron gestionados automáticamente, reduciendo el MTTR en un 79% en servicios críticos y los incidentes empresariales a solo dos por mes.

En otro caso, una compañía global enfrentó desafíos debido a la fragmentación del monitoreo. Adoptaron un plan de madurez en tres etapas, pasando de operaciones proactivas a dinámicas. Demostraron que la implementación gradual de la automatización puede mejorar significativamente la disponibilidad y reducir incidentes.

En conclusión, la transformación hacia plataformas autónomas es un desafío en ingeniería de sistemas y gobernanza. Los modelos que integran inteligencia de máquina con supervisión humana son fundamentales. La experiencia sugiere que la autonomía se logra con un enfoque gradual, mejorando la estabilidad y fortaleciendo la resiliencia en la era digital.

Scroll al inicio