Expertos en IA afirmar que la inteligencia artificial está muy cerca de aprobar "el último examen de la humanidad"

Vecteezy

La idea es evaluar si los grandes modelos de lenguaje pueden superar el Último Examen de la Humanidad, una prueba diseñada para medir su capacidad de razonamiento y conocimiento.

La inteligencia artificial avanza a pasos agigantados, desafiando las capacidades cognitivas humanas con cada iteración. Ahora, un grupo de investigadores ha diseñado lo que llaman el Último Examen de la Humanidad o Humanity’s Last Exam (HLE).

Se trata de un test que pondrá a prueba hasta qué punto los modelos de lenguaje avanzados pueden comprender y razonar sobre temas complejos sin depender de información accesible en internet.

El gran desafío no es solo hacer que la IA sea más precisa, sino también enseñarle a reconocer sus propias limitaciones. Con estos avances, nos acercamos a una era en la que la inteligencia artificial no solo responderá preguntas con gran precisión, sino que también sabrá cuándo es mejor decir: "No lo sé".

Un test diseñado para confundir a la IA

El HLE no es un cuestionario común. Ha sido desarrollado por un equipo de expertos en inteligencia artificial y seguridad tecnológica con el propósito de identificar las lagunas cognitivas de los grandes modelos de lenguaje (LLM, por sus siglas en inglés), como los de Google, OpenAI y otras compañías. 

Los resultados de la prueba fueron publicados en un estudio en arXiv, aunque aún no han sido sometidos a revisión por pares, según Popular Mechanics

Su objetivo no es solo medir su precisión, sino también evaluar su capacidad de razonamiento frente a problemas cuya solución no está fácilmente disponible en bases de datos. "Cada pregunta tiene una solución conocida, inequívoca y fácilmente verificable, pero no se puede encontrar rápidamente en internet", afirmaron los investigadores en el estudio.

Para su diseño, los investigadores recopilaron preguntas de diversas disciplinas: matemáticas avanzadas, biología, ingeniería, lingüística, física, química y ciencias sociales. Se seleccionaron aquellas que desafían la comprensión, la interpretación y la lógica más allá del simple reconocimiento de patrones. 

Los resultados hasta ahora reflejan que la inteligencia artificial aún tiene mucho camino por recorrer. Modelos como Gemini de Google y DeepSeek han obtenido puntajes entre el 3 % y el 14 %, una cifra muy baja en comparación con lo que se esperaría de un humano con formación académica avanzada.

Sin embargo, los expertos creen que esta brecha se cerrará pronto. Según las proyecciones del estudio, es probable que para finales de 2025, los modelos de IA alcancen al menos un 50 % de precisión en el examen, lo que marcaría un avance significativo en su desarrollo.

El proceso de evaluación también ha sido innovador. Para garantizar la imparcialidad, los resultados se verifican con otra inteligencia artificial, GPT-40, que analiza si las respuestas proporcionadas son correctas y permite variaciones en la redacción que no alteren el significado.

Un aspecto interesante del experimento es que no solo se mide la capacidad de responder correctamente, sino también el nivel de certeza con el que los modelos de IA ofrecen sus respuestas. 

En futuras fases del desarrollo, se espera que estos sistemas sean capaces de identificar cuándo no tienen suficiente información para dar una respuesta segura en lugar de generar una conclusión errónea con total confianza.

El desafío de la incertidumbre en la IA

Uno de los mayores problemas que enfrentan estos sistemas es su tendencia a ofrecer respuestas incorrectas con una seguridad absoluta. Para contrarrestar esto, los investigadores planean entrenar a las IA para que incluyan un índice de confianza en sus respuestas, indicando con qué grado de seguridad creen estar en lo correcto.

Este tipo de aprendizaje permitiría que los modelos no solo sean más precisos, sino que también sean más transparentes sobre sus propias limitaciones. 

Si una IA puede reconocer que una pregunta está más allá de su capacidad de razonamiento, podría evitar la propagación de información errónea y mejorar su utilidad en aplicaciones críticas como la investigación científica y la toma de decisiones empresariales.

"Si bien los LLM actuales logran una precisión muy baja en HLE, la historia reciente muestra que los puntos de referencia se saturan rápidamente, y los modelos progresan drásticamente desde un rendimiento cercano a cero a uno casi perfecto en un corto período de tiempo", dijeron los investigadores en el estudio.

Otros artículos interesantes:

Más información sobre: