Recientemente, las empresas están enfrentando un desafío creciente: la gestión de conjuntos de datos complejos que abarcan múltiples dominios como finanzas, recursos humanos y seguridad. Estos datos, generalmente almacenados en diversas plataformas, requieren conocimientos específicos para ser recuperados de manera efectiva. Con los avances en inteligencia artificial generativa, ha surgido una tecnología que convierte el lenguaje natural a SQL (NL2SQL), buscando simplificar el acceso a estas bases de datos. Sin embargo, se ha identificado que la conversión precisa de consultas en lenguaje natural a SQL complejo es todavía un gran desafío.
El problema principal radica en que muchos esquemas de bases de datos están optimizados para el almacenamiento más que para la recuperación, lo que conlleva que las consultas suelen ser complejas, involucrando estructuras anidadas y datos multidimensionales. Para solucionar estos problemas, los equipos de AWS y Cisco han ideado un enfoque que minimiza el procesamiento necesario para generar SQL, permitiendo el uso de modelos generativos más simples y económicos, y mejorando el acceso a los datos empresariales.
Entre los desafíos de NL2SQL a nivel empresarial se encuentran la complejidad de los esquemas de bases de datos, la diversidad en las consultas de lenguaje natural y las limitaciones inherentes al conocimiento de los modelos de lenguaje. Además, la atención que requieren estos modelos puede aumentar el tiempo de latencia en la generación de consultas, complicando aún más la exactitud de los resultados.
La metodología propuesta por AWS y Cisco se enfoca en restringir el alcance a dominios de datos específicos, simplificando así la construcción de prompts para los modelos generativos. Este enfoque optimiza el uso de recursos al identificar correctamente las entidades mencionadas en las consultas de los usuarios y convertirlas en identificadores únicos, facilitando la generación de despliegues SQL más precisos y sencillos.
Las pruebas realizadas con este nuevo enfoque han mostrado altos niveles de precisión y consistencia en la generación de SQL, además de una mejor escalabilidad. Este avance podría revolucionar la manera en que las empresas manejan y recuperan datos valiosos, haciéndolo de una manera más segura y eficiente. En conclusión, el desarrollo de esta metodología podría transformar significativamente el acceso a datos en las organizaciones.