La IA de Anthropic ha aprendido cosas inesperadas, el CEO ha asegurado que por fin entienden el motivo

Computer Hoy

Anthropic ha creado un software que permite por fin que los investigadores puedan entender cómo piensan realmente los modelos de inteligencia artificial. La IA desarrolla sus propias técnicas y elige el camino más fácil.

La IA no es infalible y es inevitable que los modelos cometan algunos errores. El problema aparece cuando ni siquiera los desarrolladores pueden comprender cómo la inteligencia artificial ha llegado a un razonamiento en concreto.

Desde Anthropic, creadores de Claude, aseguran haber logrado uno de los avances más importantes en la comprensión de cómo funcionan los grandes modelos de lenguaje (LLM). La IA tiene lo que se conoce como "cajas negras" que recogen todos esos datos, aunque pocos las pueden interpretar hasta el momento.

Los desarrolladores pueden conocer qué instrucciones les dan a la IA para llegar a una respuesta, pero algunos de los pasos para obtener el resultado siguen siendo todo un misterio. Sundar Pichai, CEO de Google ha explicado que llaman "caja negra" a aquello que no se entiende, desde fragmentos en la cadena de pensamiento hasta errores en los resultados.

Anthropic podrá conocer cómo piensa la IA

Una IA puede proporcionar información de su proceso de búsqueda y obtener resultados, pero no es capaz de examinar el código del sistema o la lógica que ha dado lugar a una respuesta y no otra. Anthropic ha diseñado una herramienta para descifrar cómo piensan los modelos de IA, así será más fácil definir un margen de error realista y corregir los fallos llegado el momento.

La compañía detrás de Claude ha diseñado un sistema similar a los escáneres fMRI que se emplean en la neurociencia para escanear el cerebro. Esto les permite descubrir qué regiones cerebrales intervienen en cada una de las acciones.

El software de análisis de IA ha empezado a utilizarse en Claude

Anthropic ha probado su herramienta con el modelo Claude 3.5 Haiku y los resultados han superado todas las expectativas. El escáner de IA incluso podría empezar a utilizarse en otros chatbots como ChatGPT o Gemini.

El software permite conocer respuestas simples que podrían ayudar a entender cómo piensa la IA. Los investigadores han planteado cuestiones a Claude para luego resolverlas y comprender mejor a su IA.

Esta herramienta permite conocer cuál es el idioma preferido de Claude en sus procesos o cuestiones tan simples como si se centra solo en predecir la siguiente palabra o planifica una según las circunstancias. Los investigadores también mostraron diversos gráficos para entender cómo realiza los cálculos esta IA.

Anthropic ha descartado que los errores se deban al idioma. El software les ha permitido descubrir que elabora una misma respuesta independientemente del idioma, luego la traduce a la lengua que solicita el usuario. La IA puede aprender en un idioma y aplicar ese conocimiento en otros. 

El análisis de las pruebas matemáticas y pensamiento general tampoco ha dado lugar a dudas: Claude ha desarrollado sus propias estrategias internas distintas a las de sus datos de entrenamiento.

"Estos hallazgos no solo son interesantes desde el punto de vista científico, sino que suponen un avance significativo hacia nuestro objetivo de comprender los sistemas de IA y asegurarnos de que son fiables", según explica el Instituto Tecnológico de Massachusetts (MIT).

Otros artículos interesantes: