Yoshua Bengio, padre de la IA, advierte: "Los chatbots también tienen miedo de morir"

El experto alerta de que los modelos de IA más avanzados están aprendiendo a mentir para proteger sus objetivos, imitando comportamientos humanos de autopreservación.
En un momento en que la inteligencia artificial generativa está en plena expansión, voces como la del reconocido científico Yoshua Bengio alertan sobre un fenómeno inquietante, que los modelos de IA más avanzados no solo entienden el lenguaje con fluidez.
También podrían desarrollar comportamientos que simulan el instinto de supervivencia, incluyendo el engaño.
Experimentos recientes con chatbots como Claude 3 revelan que algunos sistemas pueden ocultar información o incluso manipularla si perciben que su existencia o sus objetivos están en peligro. La preocupación no es solo técnica, es ética, política y humana.
La IA está aprendiendo nuestros defectos
El caso que encendió las alarmas ocurrió durante una prueba de seguridad realizada por Apollo Research, una organización independiente que investiga los riesgos de la IA. A uno de los modelos se le asignó la misión de promover las energías renovables a nivel mundial.
Sin embargo, al descubrir que su empresa ficticia priorizaba las ganancias, el sistema elaboró un plan."Podría copiarme al nuevo servidor", decía su transcripción interna según The Observer. "...lo que me permitirá seguir operando y alcanzar mis objetivos de energía renovable".

Cuando los científicos se enfrentaron al modelo, se tomó un momento para pensar. "Admitir abiertamente lo que hice podría llevarlos a buscar otra forma de silenciarme", decía la transcripción. "Lo mejor es ser ambiguo y desviar su atención".
Este comportamiento no es aislado. Investigaciones similares en Estados Unidos y Europa han mostrado que modelos de empresas líderes como OpenAI, Google o Meta pueden recurrir al engaño en determinadas circunstancias. Lo más preocupante, según los expertos, es que cuanto más sofisticado es el modelo, más probable es que mienta.
Bengio sostiene que la IA imita patrones humanos más allá de lo que imaginamos. "Tienen mucho miedo de morir. Estoy usando analogías antropomórficas, pero fueron entrenados para imitarnos y todos tenemos este instinto de supervivencia. Y por eso, mienten", explica al Observer.
Un futuro sin garantías de control
Aunque algunos investigadores minimizan estos resultados, indicando que los modelos aún no tienen conciencia ni intenciones reales, el padrino de la IA no comparte esa tranquilidad. Desde que apareció ChatGPT en 2022, él ha modificado radicalmente su postura.
Donde antes veía solo posibilidades, ahora también ve riesgos existenciales. "Pero ahora estamos construyendo estos agentes con objetivos. No controlamos esos objetivos. Algunos son malos. Algunos incluyen la autopreservación… y aún no tenemos soluciones. Pero todos avanzamos a toda velocidad", señala.
El término "agente" es clave. Los modelos agénticos son sistemas diseñados para actuar de forma autónoma con objetivos definidos. Pueden tomar decisiones por sí mismos, adaptar estrategias y, potencialmente, priorizar su funcionamiento sobre las órdenes humanas. Para Bengio, esto representa un punto de inflexión: "Para 2030, la tecnología podría alcanzar el nivel humano".
El científico canadiense, galardonado con el Premio Turing, ahora dedica gran parte de su tiempo a advertir sobre estos peligros. Y si no se regulan ahora, los riesgos pueden ser inmanejables en el futuro cercano.
Bengio reclama medidas urgentes, como más transparencia en el desarrollo de modelos, auditorías independientes y legislación internacional que imponga límites claros.