La creciente complejidad y escala de los flujos de trabajo de inteligencia artificial y aprendizaje automático (AI/ML) ha planteado importantes desafíos para los proyectos que buscan avanzar de la fase piloto a la producción. A menudo, estas iniciativas no fracasan debido a la calidad de los modelos, sino a la presencia de infraestructuras y procesos fragmentados que vuelven engorroso su manejo. Esta situación obliga al código inicial a adaptarse excesivamente a nuevos requisitos, complicando la transición de desarrollo local a entornos de producción y la posibilidad de replicar los resultados obtenidos en la fase inicial.
Para enfrentar estos problemas aparece el Flyte Python SDK, un instrumento diseñado para orquestar y escalar flujos de trabajo de AI/ML. La última versión del sistema Union.ai permite la implementación de Flyte en Amazon Elastic Kubernetes Service (Amazon EKS), integrándose sin problemas con otros servicios de AWS como Amazon S3, Amazon Aurora, AWS Identity and Access Management (IAM) y Amazon CloudWatch. El uso del nuevo servicio de Amazon S3 Vectors es un ejemplo práctico de cómo se puede materializar un flujo de trabajo de AI con esta herramienta.
La ejecución de flujos de trabajo de AI/ML sobre Kubernetes implica varios retos de orquestación, tales como la complejidad de la infraestructura, el desfase entre la experimentación y la producción, la reproducibilidad de resultados, la gestión de costos y la capacidad de recuperación ante fallos. La solución de Union.ai 2.0 se presenta como una herramienta esencial para facilitar el desarrollo y la implementación de modelos de AI en estos entornos complejos.
Union.ai 2.0 redefine la orquestación de cargas de trabajo en Amazon EKS, permitiendo que los flujos de trabajo en Python escalen eficazmente desde laptops a clústeres, con una ejecución dinámica y un fuerte énfasis en la reproducibilidad. Sus características incluyen una orquestación lógica escrita en Python que reduce el código necesario en un 66% respecto a otros orquestadores, la habilidad para tomar decisiones en tiempo real durante la ejecución y una recuperación ágil ante fallos, sin necesidad de intervención manual.
La combinación de una arquitectura híbrida que ofrece simplicidad gestionada y control total sobre los datos permite a Union.ai 2.0 eliminar la complicación de gestionar la infraestructura de Kubernetes, liberando a los equipos para centrarse en la construcción de modelos y aplicaciones de AI. Integra componentes cruciales como el plano de control y el plano de datos, asegurando una gestión eficiente y segura de los flujos de trabajo desde la ejecución hasta el almacenamiento y la supervisión.
Un ejemplo destacado de la efectividad de esta tecnología es la implementación llevada a cabo por Woven by Toyota, que al cambiar a Union.ai experimentó mejoras significativas en la velocidad de los ciclos de iteración de ML, importantes ahorros en costos y un aumento en la capacidad de procesamiento de datos. Con la integración de Amazon S3 Vectors, se simplifica la gestión de datos vectoriales a gran escala, ofreciendo a las organizaciones la oportunidad de aprovechar modelos de AI avanzados y escalables sin las complicaciones que conlleva la gestión de infraestructuras dispares.
En resumen, con soluciones como Union.ai y Flyte, se establecen las bases para una orquestación fiable y escalable de la AI en entornos de producción, facilitando que las empresas se concentren en el desarrollo de sistemas autónomos y en la formación de modelos de aprendizaje automático a gran escala.