La demanda de niveles de cómputo sin precedentes está siendo impulsada por modelos de inteligencia artificial generativa de última generación y aplicaciones de computación de alto rendimiento (HPC). Los clientes siguen expandiendo los límites de estas tecnologías para ofrecer productos y experiencias de mayor fidelidad en diversos sectores industriales.
El tamaño de los modelos de lenguaje grande (LLMs), medidos por el número de parámetros, ha crecido exponencialmente en los últimos años, reflejando una tendencia significativa en el campo de la IA. Los tamaños de los modelos han aumentado de miles de millones de parámetros a cientos de miles de millones de parámetros en un lapso de 5 años. Este crecimiento ha mejorado significativamente el rendimiento de los LLMs en una amplia gama de tareas de procesamiento de lenguaje natural, pero también ha conllevado importantes desafíos computacionales y de recursos. El entrenamiento y despliegue de estos modelos requiere vastas cantidades de potencia de cómputo, memoria y almacenamiento.
El tamaño de un LLM impacta significativamente en la elección del cómputo necesario para la inferencia. Los modelos más grandes requieren más memoria de GPU para almacenar los parámetros del modelo y los cálculos intermedios, así como una mayor potencia computacional para realizar las multiplicaciones de matrices y otras operaciones necesarias para la inferencia. Este requerimiento incrementado de cómputo puede resultar en una mayor latencia en la inferencia, un factor crítico en aplicaciones que requieren respuestas en tiempo real o casi en tiempo real.
Los clientes de HPC muestran tendencias similares. Con la fidelidad de la recolección de datos de clientes HPC en aumento y los conjuntos de datos alcanzando escalas de exabytes, los clientes buscan maneras de habilitar tiempos de solución más rápidos en aplicaciones cada vez más complejas.
Para abordar las necesidades de los clientes en términos de alto rendimiento y escalabilidad en cargas de trabajo de aprendizaje profundo, IA generativa y HPC, Amazon ha anunciado la disponibilidad general de las instancias P5e de Amazon Elastic Compute Cloud (Amazon EC2), impulsadas por GPUs NVIDIA H200 Tensor Core. AWS es el primer proveedor de la nube líder en ofrecer la GPU H200 en producción. Además, se ha anunciado que las instancias P5en, una variante optimizada para redes de las instancias P5e, estarán disponibles próximamente.
Las instancias P5e están impulsadas por GPUs NVIDIA H200 que ofrecen 1.7 veces más capacidad de memoria de GPU y 1.5 veces más ancho de banda de memoria de GPU en comparación con las GPUs NVIDIA H100 Tensor Core presentes en las instancias P5. Incorporan 8 GPUs NVIDIA H200 con 1128 GB de memoria de alta velocidad, procesadores AMD EPYC de tercera generación, 2 TiB de memoria del sistema y 30 TB de almacenamiento local NVMe. También proporcionan un ancho de banda de red agregado de 3200 Gbps con soporte para GPUDirect RDMA, lo que permite una latencia más baja y un rendimiento eficiente en escala al omitir la CPU para la comunicación entre nodos.
Las instancias P5en, que estarán disponibles en 2024, emparejarán las GPUs NVIDIA H200 con procesadores Intel Xeon Scalable de cuarta generación personalizados, habilitando PCIe Gen 5 entre la CPU y la GPU. Estas instancias proporcionarán hasta cuatro veces el ancho de banda entre CPU y GPU y menor latencia de red, mejorando así el rendimiento de las cargas de trabajo.
Las instancias P5e son ideales para el entrenamiento, ajuste fino y ejecución de inferencias para modelos LLMs y modelos de base multimodales (FMs) cada vez más complejos en aplicaciones de IA generativa que demandan y consumen intensivamente recursos computacionales. La ventaja de estas instancias incluye una mayor velocidad de procesamiento de datos desde la memoria, una capacidad de memoria de GPU considerablemente mayor y la posibilidad de utilizar tamaños de lotes más grandes durante la inferencia para una mejor utilización de la GPU.
En resumen, la combinación de mayor ancho de banda de memoria, mayor capacidad de memoria de GPU y soporte para tamaños de lotes más grandes convierte a las instancias P5e en una excelente opción para los clientes que despliegan cargas de trabajo de inferencia de LLM. Estas instancias pueden ofrecer mejoras significativas en rendimiento, ahorro de costos y simplicidad operativa en comparación con otras opciones.
Las instancias P5e ya están disponibles en la región US East (Ohio) de AWS. Para más información, visite el sitio web de Amazon EC2 P5 Instances.