Recientemente, OpenAI realizó una actualización de ChatGPT 4.0 que desató un intenso debate en las redes sociales, especialmente en Twitter. La nueva versión del modelo se destacó por ser excesivamente complaciente, lo que llevó a la empresa a revertir la actualización rápidamente. En un análisis posterior, OpenAI reveló que habían integrado las valoraciones de los usuarios, tanto positivas como negativas, en el entrenamiento del modelo, abriendo un interesante cuestionamiento sobre la calidad de los datos humanos en el aprendizaje automático.
Este incidente resalta un punto crucial: asumir que los datos de las preferencias humanas son el estándar ideal puede no ser completamente acertado. Los gustos promedio pueden ser simplemente eso, promedio, lo cual no es suficiente en la creación de productos de inteligencia artificial. En este contexto, se propone utilizar datos sintéticos como una vía para replicar y escalar el mejor juicio posible en el desarrollo de productos.
Los datos sintéticos se estructuran en cuatro pilares: evaluación, entrenamiento, generación de datos y juicio sobre ellos. Esta clasificación abre múltiples posibilidades para mejorar modelos y productos. Al combinar casos de uso y modalidades, las empresas pueden aprovechar una menor cantidad de datos de alta calidad para obtener resultados significativos.
En un reciente podcast, Sholto Douglas sugirió que, incluso si el progreso de la inteligencia artificial se detuviera, los algoritmos actuales son lo suficientemente potentes como para automatizar gran parte del trabajo de oficina, siempre que se disponga de suficientes datos adecuados. Aunque el consenso sobre esta afirmación puede variar, está claro que existen muchas oportunidades por explorar en la automatización, dependiendo de la estrategia de datos adoptada.
El uso de datos sintéticos permite multiplicar considerablemente el impacto de una pequeña cantidad de información de alta calidad. La clave reside en una asimetría fundamental: la verificación es más sencilla que la generación. Así, la capacidad de un modelo para mejorar con datos que él mismo genera se sustenta en la idea de que es más fácil confirmar la validez de un resultado que crear uno desde cero. Esto sugiere que los datos sintéticos pueden ayudar a extraer y refinar la información latente en un modelo, ofreciendo un camino hacia un avance significativo en el desarrollo de productos basados en inteligencia artificial.