Investigadores españoles descubren la “kriptonita” de la IA: “Súpercuñados que lo han leído todo”

Montaje/Depositphotos

Expertos han puesto a prueba la inteligencia artificial de la empresa xAI de Elon Musk. Los resultados arrojan que el modelo Grok 3 no es tan potente como muchos dicen.

El CEO de SpaceX, Tesla y Neuralink ha lanzado finalmente la “IA más inteligente de la Tierra”. Grok 3 se encuentra disponible como una de las propuestas más novedosas entre los chatbots más conocidos del mundo para competir con la inteligencia artificial de Open AI.

Este gran paso de la compañía de Elon Musk ha llamado la atención de muchas personas ante las grandes novedades que se aproximan con el modelo GPT-4.5 de Sam Altman. Sin embargo, algunos especialistas de España han encontrado una debilidad en los modelos que desmantelan sus razonamientos.

Con el uso de los benchmarks, se ha confirmado a través de X que Grok 3 supera a Gemini 2 Pro, DeepSeek V3, Claude 3.5 e incluso a GPT 4.o, promocionándose como el más inteligente de todos, pero en realidad se trata de puro marketing, o al menos eso es lo que aseguran los expertos.

¿Por qué Grok 3 no es tan inteligente como se promociona en redes?

Prueba comparativa de Grok 3
Prueba comparativa de Grok 3

Por supuesto, los benchmarks son plataformas esenciales para medir el rendimiento de cada una de las inteligencias artificiales y compararlas con el fin de saber cuáles son las mejores en cuanto a razonamiento, velocidad y otras características.

No obstante, el experto Julio Gonzalo, Catedrático de Lenguajes y Sistemas Informáticos de la UNED, y otros investigadores españoles han llegado a la conclusión que debido al marketing necesario para crear una competencia entre las IAs más populares del mundo, puede hacer que se muestren datos manipulados al público, según lo que arroja El País.

Ante la situación, con la unión de los especialistas han encontrado una manera de verificar qué tan efectiva puede ser una inteligencia artificial al usar una respuesta generalizada. Para ser más específicos, se trata de enviarle consecutivamente “Ninguna de las otras”. 

De este modo, la IA debe hacer el esfuerzo de buscar una contestación lógica a esa petición en sus datos registrados para otorgar la información más cercana al tema y lograr encontrar la respuesta del prompt que el humano le ha solicitado.

“La respuesta acertada tiene un vocabulario completamente desconectado de la pregunta, lo que le obliga a razonar sobre cada una de las otras respuestas posibles y descartarlas, es una variación mucho más exigente. Es verdadera kriptonita para los modelos”. — Julio Gonzalo.

Junto a los investigadores de la UNED, Eva Sánchez Salido y Guillermo Marco, el objetivo era determinar si de verdad los modelos de IA estaban analizando la frase y cómo actuaban cada vez que se ejecutaba.

En efecto, el experimento ha terminado siendo la kriptonita de la que Gonzalo hablaba, pues las estadísticas apuntan a que se pierde del 50% al 57% en la efectividad y precisión del modelo sobre el tema hablado.

Según lo que menciona Marco, es una táctica que permite ver la capacidad real del razonamiento de las inteligencias artificiales, incluyendo la del magnate Elon Musk. Por lo que se estima, todo está relacionado con “el acierto por memorización”, lo cual no permite que tengan capacidades avanzadas con respecto a la generalización de peticiones.

“Nuestros resultados demuestran que los chatbots, en general, siguen aplicando un tipo de razonamiento intuitivo y tienen una capacidad de generalización escasa. En otras palabras, siguen contestando de oídas, intuitivamente, y siguen siendo, en esencia, súpercuñados que lo han leído todo, pero no han asimilado nada”. — Julio Gonzalo.

Prácticamente, es similar a la prueba de la generación de imágenes con horas específicas que se le hace a ChatGPT, pues todavía son modelos con ciertas limitaciones. 

Otra de las cosas que se mencionan es que la tecnología en cuestión, funciona mejor en inglés que en español y puede hacer una diferencia importante en las respuestas, tal y como sucede al usar las funciones de DeepSeek, por ejemplo.

Con la llegada de ChatGPT-o3 mini y DeepSeek R1-70b, ahora hay un mayor rendimiento en las respuestas debido a la incorporación de los parámetros superiores que han hecho en estos modelos. 

Por lo tanto, a pesar de que una simple frase como “Ninguna de las anteriores” sea un problema para dichos entes virtuales, la tecnología avanza y en algún punto tal vez superen este gran obstáculo

En la actualidad, esta estrategia se puede emplear para determinar la capacidad de los nuevos lanzamientos que piensen hacer empresas como xAI, Open AI, Google y Microsoft.

Otros artículos interesantes: