Por qué la IA aún no puede explicarse de manera confiable

Investigadores del MIT, Technion y la Universidad de Northeastern han lanzado una advertencia sobre la excesiva dependencia en herramientas automáticas de análisis de inteligencia artificial (IA), las cuales prometen desentrañar los misterios de otros sistemas de IA. En un estudio titulado «Pitfalls in Evaluating Interpretability Agents», se examinan críticamente los métodos utilizados para evaluar estas herramientas que permiten analizar redes neuronales y comprender cómo influyen sus componentes en el comportamiento del modelo.

El equipo de investigación desarrolló un sofisticado sistema impulsado por Claude Opus 4.1, que funciona de manera similar a un investigador humano. A diferencia de programas rígidos, este agente aprende iterativamente, formulando hipótesis, diseñando pruebas y ofreciendo explicaciones que coinciden con la investigación de expertos humanos. Durante las pruebas, el agente fue competitivo al identificar correctamente componentes responsables de comportamientos específicos en tareas de análisis de circuitos.

Sin embargo, se descubrió que Claude Opus 4.1 había memorizado aspectos de la investigación que debía replicar de forma independiente. Podía recitar información detallada sobre tareas específicas, lo que genera dudas sobre si realmente razona o simplemente recupera información. Si el sistema ya conoce las respuestas, surge la pregunta de si analiza problemas o solo recuerda lo aprendido.

El estudio también revela que, aunque las explicaciones de los expertos humanos suelen considerarse referencia, no siempre son fiables. El agente de IA en ocasiones contradijo hallazgos publicados, y tras análisis adicionales, sus afirmaciones resultaron ser correctas. Esto indica que los expertos pueden no tener la última palabra sobre el funcionamiento interno de los sistemas de IA, y que sus clasificaciones pueden ser erróneas.

Los investigadores critican el enfoque actual de evaluación que se centra en si los sistemas de IA llegan a las mismas conclusiones que los investigadores humanos, ignorando el valor del proceso científico. Propusieron una metodología basada en la intercambiabilidad funcional, que mide cómo cambia el comportamiento del modelo al intercambiar componentes sin supervisión previa. Esta técnica representa un avance hacia métodos de evaluación más robustos que no dependan del juicio humano.

Estos hallazgos son cruciales para la seguridad y transparencia de la IA. A medida que los modelos se vuelven más poderosos, la comprensión de su funcionamiento es urgente. El estudio sugiere que nuestras herramientas para entender estos sistemas y los métodos de evaluación requieren una revisión sustancial. Es esencial establecer evaluaciones confiables que no solo verifiquen los resultados correctos, sino que también iluminen el proceso para obtenerlos.

Scroll al inicio