Innovación en Vídeos: Automatización del Doblaje con Amazon Translate, Bedrock y Polly

Video auto-dubbing using Amazon Translate, Amazon Bedrock, and Amazon Polly

En la era digital, la barrera del idioma sigue siendo un desafío significativo para la expansión global de contenido multimedia. El proceso tradicional de doblaje de video, también conocido como la localización de contenidos, ha sido una técnica esencial utilizada para superar estas barreras lingüísticas, permitiendo a las audiencias de diferentes partes del mundo disfrutar de contenido en su idioma nativo. Sin embargo, esta metodología presenta inconvenientes, principalmente debido a su alto costo y la considerable cantidad de tiempo que requiere. Normalmente, el doblaje manual puede costar alrededor de $20 por minuto, involucrando a revisores humanos.

Frente a estos desafíos, la inteligencia artificial ha surgido como una solución innovadora y rentable. El doblaje automático mediante inteligencia artificial generativa ofrece una opción más asequible y eficiente para los creadores de contenido. En este nuevo terreno, se destaca una solución económica que utiliza Amazon Translate para la traducción inicial de los subtítulos del video, complementada con Amazon Bedrock para la post-edición, mejorando así notablemente la calidad de la traducción. Amazon Translate, un servicio de traducción automática neuronal, proporciona traducciones rápidas, precisas y económicas. Por su parte, Amazon Bedrock ofrece una selección de modelos fundacionales de IA que permiten construir aplicaciones de inteligencia artificial generativa de manera segura y responsable.

Un ejemplo pionero en el uso de estas tecnologías es MagellanTV, una plataforma líder en la transmisión de documentales. Con el objetivo de ampliar su presencia global, MagellanTV enfrentaba los altos costos y el tiempo que implica el doblaje manual. Para superar estos obstáculos, recurrieron a Mission Cloud, un socio del nivel Premier de AWS, en busca de una solución innovadora.

La propuesta de Mission Cloud resalta por su capacidad de detección idiomática y reemplazo automático, escalado de tiempo automático sin interrupciones y capacidades de procesamiento por lotes flexibles, lo que mejora la eficiencia y escalabilidad del proceso. El inicio del proceso es sencillo: el usuario especifica las entradas en una plantilla de Excel, que luego se carga en un bucket de Amazon S3 designado, activando así toda la tubería. Los resultados incluyen no solo un archivo de video doblado, sino también un archivo de subtítulos traducidos.

El flujo de trabajo incluye varias tecnologías avanzadas: Amazon Translate se utiliza para traducir los subtítulos inicialmente, mientras que Amazon Bedrock mejora la calidad y sincroniza audio y video. Amazon Augmented AI permite la revisión del contenido por parte de los editores, que se envía posteriormente a Amazon Polly para generar voces sintéticas. Adicionalmente, se ha desarrollado un modelo para predecir y asignar expresiones de género coincidentes con el orador, añadiendo un nivel de detalle y precisión mayores al doblaje.

Detrás de estas operaciones, AWS Step Functions orquesta los pasos como una secuencia cohesionada, ejecutándose cada uno en AWS Lambda o AWS Batch. Gracias a AWS CloudFormation, es posible reutilizar esta infraestructura como código para doblajes en diferentes idiomas.

Amazon Translate se seleccionó por su capacidad de soportar más de 75 idiomas, la precisión de sus traducciones y sus beneficios únicos, como la capacidad de agregar glosarios terminológicos personalizados. Amazon Bedrock, por otro lado, se emplea para la post-edición de los subtítulos, especialmente adaptando la detección y reemplazo de expresiones idiomáticas según el género del contenido, lo que es particularmente útil para géneros con más conversación casual.

La solución también incluye un algoritmo de acortamiento de oraciones desarrollado con Amazon Bedrock, lo que mejora significativamente el rendimiento del doblaje de video y reduce el esfuerzo de revisión humana, resultando en un considerable ahorro de costos.

Esta innovadora pipeline desarrollada por Mission Cloud ha revolucionado los procesos de MagellanTV, resolviendo eficientemente problemas comunes en las empresas de medios y entretenimiento. La tubería única crea nuevas oportunidades para distribuir contenido a nivel mundial, optimizando costos mediante el uso de IA generativa y soluciones para la detección y resolución de idioms, acortamiento de oraciones, y terminología y tono personalizados.

Scroll al inicio