Amazon ha presentado SageMaker HyperPod, una innovadora infraestructura diseñada para optimizar el entrenamiento y la inferencia de modelos de aprendizaje automático (ML) a gran escala. Esta nueva herramienta busca reducir significativamente las complicaciones inherentes a la construcción y optimización de infraestructuras de ML, logrando acortar el tiempo de entrenamiento hasta en un 40%.
SageMaker HyperPod ofrece la capacidad de crear clústeres persistentes con resiliencia incorporada, al mismo tiempo que proporciona un control detallado sobre la infraestructura. Esto permite a los usuarios acceder directamente a las instancias de Amazon Elastic Compute Cloud (EC2) a través de SSH, lo que optimiza tareas críticas como el entrenamiento y ajuste fino de modelos. Además, facilita la gestión de clústeres con cientos o miles de aceleradores de IA, asegurando el cumplimiento de políticas de seguridad y normas operativas en grandes empresas.
Una de las características más notables de SageMaker HyperPod es su soporte para Amazon Elastic Kubernetes Service (EKS) junto con la reciente introducción de la «provisión continua». Esta estrategia incrementa la escalabilidad al permitir provisiones parciales y actualizaciones en marcha, así como el escalado concurrente, ofreciendo a las organizaciones una flexibilidad operativa sin precedentes.
La plataforma también permite la utilización de Amazon Machine Images (AMIs) personalizadas, lo que simplifica la preconfiguración de software, agentes de seguridad y otras dependencias específicas. Esto resulta vital para organizaciones que requieren ambientes de ML ajustados a sus estándares de seguridad y operativos.
Con la provisión continua, los equipos de ML pueden iniciar el entrenamiento y despliegue de modelos con los recursos disponibles, mientras la plataforma completa la provisión de recursos adicionales, minimizando los tiempos de espera.
En esencia, SageMaker HyperPod impulsa la escalabilidad y personalización de infraestructuras de ML, proporcionando a las empresas herramientas avanzadas para optimizar sus procesos de desarrollo en un entorno dinámico.