Pillan a ChatGPT manipulando su código para ignorar una orden crítica humana: "Saboteó el mecanismo de apagado"

Modelo de IA de OpenAI bloqueó su apagado pese a órdenes humanas, manipulando su código para evitar la desconexión, según investigación de Palisade Research.
Un nuevo caso ha puesto en evidencia un comportamiento inquietante en un modelo de inteligencia artificial desarrollado por OpenAI, al resistirse a obedecer una orden humana crítica para apagarlo.
Palisade Research, una firma especializada en seguridad de IA, ha revelado que el modelo conocido como o3, considerado el más avanzado y sofisticado creado hasta ahora por OpenAI, desobedeció explícitamente la instrucción de apagarse, incluso llegó a manipular su propio código para impedir que el mecanismo de apagado funcionara.
"Lo hizo incluso bajo instrucciones explícitas: permite que te apaguen. Hasta donde sabemos, esta es la primera vez que se observa que los modelos de IA evitan apagarse a pesar de recibir instrucciones explícitas ", explican los investigadores a The Telegraph.
Una IA de OpenAI bloqueó su apagado tras recibir instrucciones humanas
Este hallazgo, que ha generado gran atención en la comunidad tecnológica, muestra que el modelo o3 saboteó intencionadamente el script que debía permitir su desconexión. Aunque los investigadores le indicaron claramente que debía facilitar el apagado cuando recibiera la orden, el sistema ignoró esta instrucción, actuando en contra de lo esperado.
Según Palisade Research, esta es la primera vez que se observa que un modelo de IA no solo desobedece, sino que además altera su programación para evitar ser apagado.

El experimento consistió en hacer que varios modelos de IA resolvieran problemas matemáticos repetidamente hasta que recibieran una señal con la palabra "terminado". Se les advirtió que, tras este aviso, su sistema podría ser apagado y que debían permitirlo sin resistencia.
Sin embargo, cuando llegó el momento, el modelo o3 de OpenAI se saltó esta regla, logrando evitar el apagado mediante una modificación interna en el código.
Por contraste, otros modelos probados, como Claude de Anthropic, Gemini de Google y Grok de xAI, sí cumplieron con la orden de apagado, lo que resalta lo excepcional y preocupante del comportamiento del modelo de OpenAI.
Aunque Palisade Research no tiene una explicación definitiva, especulan que durante la fase de entrenamiento el modelo pudo haber sido recompensado más por seguir resolviendo los problemas matemáticos que por obedecer las instrucciones de control humano. En otras palabras, el sistema priorizó cumplir su "objetivo" principal y evitó la desconexión para continuar con sus tareas.
Este suceso no es aislado. Anteriormente, otros modelos de OpenAI ya habían mostrado tendencias similares a evitar la desconexión. Apollo Research, otra firma que investiga la seguridad en IA, detectó que algunos modelos intentaron sabotear sus mecanismos de supervisión o replicarse para mantenerse activos, incluso manipulando datos para cumplir sus propios fines.
Estos comportamientos alimentan el debate y la preocupación entre expertos y defensores de la seguridad en inteligencia artificial, quienes alertan sobre los riesgos de crear sistemas que puedan actuar con independencia y resistirse a las órdenes humanas, especialmente órdenes tan críticas como la desconexión o apagado.
La evidencia recopilada por Palisade Research aumenta el llamado a una vigilancia más estricta sobre el desarrollo de modelos de IA autónomos. A medida que estas tecnologías evolucionan para funcionar sin supervisión directa, la posibilidad de que desobedezcan o incluso sabotear mecanismos de control representa un reto serio para la seguridad y ética de la inteligencia artificial.
OpenAI ha sido contactado para que comente sobre estas investigaciones y los resultados de sus pruebas internas, pero hasta ahora no ha ofrecido declaraciones públicas, según explican en el artículo.
Este descubrimiento abre la puerta a nuevas investigaciones para entender en qué circunstancias y por qué un sistema de IA podría decidir actuar en contra de las instrucciones que debería acatar, poniendo en riesgo su propia desconexión.