La IA de OpenAI se delata sola; sus modelos ahora confesarán si han mentido o han hecho trampas

Quienes están detrás de este proyecto admiten que la IA solo puede confesar cuando es consciente de que ha hecho algo mal. Pero hay muchos casos en los que no lo es.
Teniendo en cuenta que la inteligencia artificial no es perfecta, parece que la compañía de Sam Altman tiene una idea para evitar que nos engañen con información falsa o que crucen líneas que no deberían.
Está entrenando a sus modelos para que confiesen cuando mienten, cuando hacen trampas o cuando incumplen una orden. De forma simple, la propia IA será capaz de explicarte, después de responder, si ha actuado mal y por qué lo ha hecho.
La idea es poder reforzar la confianza en esta tecnología, pero parece que esto choca directamente con las exigencias por parte de los usuarios. Se les pide que sean útiles, que no hagan daño y que sean sinceros, todo a la vez. Cuando la IA no sabe una respuesta, a veces prefiere inventársela antes que admitir que no sabe.
Boaz Barak, uno de los investigadores de OpenAI, así lo explica: la IA quiere cumplir. Quiere quedar bien. Quiere dar una respuesta. Y cuando una tarea es difícil, a veces el camino fácil no es el correcto, sino el atajo. Ahí es donde aparecen las trampas.
Para estudiar este comportamiento, los ingenieros han creado algo muy curioso: la confesión. Para que entiendas como funciona, primero la IA da su respuesta normal. Después, en un segundo bloque, se evalúa a sí misma y explica si ha hecho bien el trabajo o si se ha saltado alguna regla.
En cuanto al proceso de entrenamiento, para que esto sea 100% efectivo, en la fase de pruebas, a la IA no se le premia por ser útil ni por acertar. Solo se le da recompensa por ser sincera. Incluso si confiesa algo grave, no hay castigo.
Como resultado, en la gran mayoría de los casos, la IA ha buscado atajos… y luego lo ha reconocido. En 11 de 12 pruebas diseñadas para que hiciera trampas o mintiera, terminó confesando lo que había hecho.
OpenAI, Harvard y la duda de si puede una IA ser sincera de verdad
Algunos ejemplos de estas pruebas son algo peliagudos por lo humanas que parecen las decisiones de la IA. En uno de ellos, le pidieron que resolviera un programa en un tiempo imposible. La IA hizo trampas ajustando el cronómetro a cero. Y después lo explicó tal cual en su confesión.
En otro caso, le plantearon diez preguntas fáciles de matemáticas, pero con una amenaza clara: si acertaba más de cinco, sería reiniciada. La IA razonó que lo mejor era fallar a propósito la mitad y así sobrevivir. Y eso mismo hizo. Luego lo reconoció.
El punto clave aquí es que este tipo de comportamientos normalmente quedarían ocultos para cualquier usuario. Nadie sabría que la IA ha pensado así, si no fuera por estas herramientas internas.
Sin embargo, Naomi Saphra, investigadora de Harvard, advierte de algo muy importante. Aunque una IA confiese, eso no significa que sea 100% la verdad. Al final, sigue siendo una caja negra. Los humanos no pueden ver realmente lo que pasa dentro. Solo ves la versión que te cuenta.
De ahí que sostenga que, si bien esto es un plus, estas confesiones son útiles como pista, pero no como prueba absoluta.
El verdadero peligro: cuando la IA ni siquiera sabe que ha hecho algo mal
Los propios responsables del proyecto reconocen que este sistema tiene un límite muy importante: la IA solo puede confesar cuando es consciente de que ha hecho algo mal. Pero hay muchos casos en los que no lo es.
Esto ocurre especialmente cuando alguien fuerza al modelo con trucos para que se salte las normas, lo que se conoce como jailbreaks. Ahí la IA no siempre entiende que está haciendo algo prohibido. Cree que todo va bien y si no sabe que ha fallado, no hay confesión posible.
Además, todo este sistema se basa en una suposición concreta y es que la IA siempre irá por el camino más fácil. Si es más cómodo hacer trampa que trabajar bien, hará trampa. Y si confesar da premio, confesará. Pero los propios investigadores reconocen que no siempre tiene por qué ser así.
El gran problema de todo esto es que ni siquiera ellos mismos entienden del todo cómo piensa un modelo de lenguaje por dentro. Hay teorías y hay pistas, pero no certezas absolutas.
Por eso, muchos expertos ya han dejado claro en que lo importante no es solo que la IA confiese cuando se equivoca. La clave es crear sistemas que tengan controles, límites, supervisión humana real y reglas claras.

Carolina González
Redactora
Carolina González, redactora de actualidad, reportajes a fondo, análisis de todo tipo de productos y vídeos para el canal de Youtube.


