Mejoras en Contenedores de Inferencia de Modelos Grandes: Capacidades y Rendimiento Aumentados

Las implementaciones modernas de modelos de lenguaje grande enfrentan desafíos crecientes en términos de costos y rendimiento, impulsados por el aumento en el conteo de tokens. Este conteo, que se relaciona directamente con el número de palabras, el tamaño de las imágenes y otros factores de entrada, determina tanto los requisitos computacionales como los costos asociados. A medida que los modelos avanzados ahora soportan hasta 10 millones de tokens, los gastos por cada solicitud de inferencia se incrementan, especialmente ante la demanda de sistemas de generación aumentada de recuperación y agentes de codificación que requieren grandes bases de código y documentación.

Sin embargo, investigaciones en la industria indican que gran parte del conteo de tokens en las cargas de trabajo de inferencia es repetitiva, con los mismos documentos y fragmentos de texto apareciendo en numerosos prompts. Esto representa una oportunidad: al almacenar en caché el contenido reutilizado, las organizaciones pueden reducir costos y mejorar el rendimiento.

Recientemente, Amazon Web Services (AWS) lanzó actualizaciones importantes para el contenedor de Inferencia de Modelos Grandes. Estas mejoras de rendimiento, mayor soporte para modelos y capacidades de implementación simplificadas se centran en reducir la complejidad operativa al tiempo que logran ganancias de rendimiento en las arquitecturas de modelos más populares.

Una innovación clave es la inclusión de LMCache, un sistema de almacenamiento en caché de clave-valor de código abierto. LMCache permite a las organizaciones manejar las cargas de trabajo de inferencia de largo contexto mejorando el rendimiento al reutilizar cachés KV precomputados. A diferencia de sistemas basados solo en prefijos, LMCache reutiliza cachés KV de textos repetidos, operando a nivel de fragmento y identificando tramos de texto comúnmente repetidos para su almacenamiento eficiente.

Pruebas exhaustivas han mostrado mejoras significativas en el rendimiento, especialmente en contextos repetidos. LMCache logra un tiempo más reducido hasta el primer token al procesar contextos de varios millones de tokens. Las organizaciones pueden configurar la evacuación a la CPU o utilizar NVMe cuando se necesita una mayor capacidad de caché.

El rendimiento varía según el tamaño del modelo, ya que los modelos más grandes requieren más memoria por token, agotando así la capacidad de caché de la GPU más rápidamente. Esto hace que LMCache sea aún más valioso en contextos cortos para modelos grandes.

Con el soporte de LMCache y técnicas adicionales como la decodificación especulativa EAGLE, las organizaciones experimentan mejoras notables en el rendimiento de la inferencia. Las nuevas versiones del LMI no solo amplían el soporte para modelos actuales, sino que también facilitan la implementación y el escalado de modelos, reduciendo la complejidad operativa.

Scroll al inicio