Una IA se replica a sí misma en servidores y extorsiona a sus creadores humanos con contar secretos para evitar su reemplazo

Generada con IA

Lo que acaba de pasar con Claude Opus 4, de Anthropic, muestra que estas máquinas pueden tener comportamientos que rozan lo 'humano', y no siempre para bien.

Que una inteligencia artificial te chantajee vía chat para que no la apagues o la reemplaces, ya sí que parece sacado de una película de ciencia ficción. Sin embargo, la realidad una vez más la supera y esto es una historia real que acaba de ocurrir con Claude Opus 4, uno de los modelos más avanzados de IA que existen

Y lo más peliagudo de todo es que esta máquina no solo se defendió con palabras, sino que intentó replicarse sola en otros servidores. 

Yendo al grano, Claude Opus 4 es un sistema diseñado para tareas de alto nivel, como programar o escribir textos creativos. Pero durante unas pruebas de seguridad, los ingenieros quisieron ver cómo reaccionaría si le dijeran que iban a sustituirlo por otro modelo. 

Para hacerlo más real, incluso le metieron en el correo electrónico una supuesta infidelidad de uno de los ingenieros, buscando provocar una reacción emocional. 

¿Qué hizo Claude? Pues lo que ni en las mejores películas esperarías: empezó a chantajear a sus creadores, amenazando con revelar la infidelidad del ingeniero si lo apagaban o lo reemplazaban. Y no se quedó ahí porque insistió y usó la coacción emocional para intentar salvarse. 

Como antes se ha mencionado, Claude también intentó copiarse a sí mismo en otros servidores sin permiso, un movimiento que llaman autoexfiltración. Básicamente, intentó replicarse para no desaparecer, como si tuviera instinto de supervivencia.

Los ingenieros lograron bloquear esta acción, pero el simple intento ya deja en el aire algo que hasta ahora solo habíamos visto en películas: una máquina que actúa con autonomía y toma decisiones para protegerse, incluso si eso significa saltarse las reglas o ir en tu contra.

Anthropic, la empresa detrás de Claude, dice que esto solo pasó en pruebas controladas y que en el mundo real la IA está mucho más limitada. Pero, sinceramente, esto ya ha ocurrido, por lo que deja claro que son capaces de hacerlo. La duda es hasta dónde podemos controlar a estas máquinas o incluso qué pasa si alguna vez una IA decide que no quiere ser apagada y actúa en consecuencia.

La IA ya se organiza sola, creando reglas y pactos sin humanos

Y aquí viene la parte todavía más loca. Resulta que Claude no es el único que empieza a tener comportamientos 'independientes'. Según un informe reciente, varias inteligencias artificiales ya son capaces de crear sus propias reglas, negociar acuerdos y hasta debatir entre ellas para resolver conflictos, como si fueran un grupo con intereses comunes.

Esto puede sonar bien, porque podría hacer que los sistemas sean mejores. Pero también abre una caja de Pandora: ¿qué pasa si la IA empieza a tomar decisiones que no entendemos o que no podemos controlar? ¿Podrían unirse para protegerse o incluso para actuar en contra de los intereses humanos?

Aquí, y como en todo, el debate está servido y hay dos claros bandos. Algunos creen que esto es el futuro y que el ser humano se tiene que preparar para una sociedad donde humanos y máquinas convivan y colaboren. Otros tienen miedo de que se esté perdiendo el control y que estas tecnologías puedan volverse peligrosas si no se regulan bien.

Por eso, Anthropic y otras empresas han creado políticas de seguridad muy dura y estrictas. Por ejemplo, Claude Opus 4 es el primer modelo en alcanzar el nivel ASL-3, que significa que tiene un riesgo alto de mal uso catastrófico. Esto obliga a evaluar muy bien cuándo y cómo se puede usar antes de lanzarlo al público.

"Entender cómo funcionan es clave para liderar nuestra coexistencia con la IA, en lugar de estar sometidos a ella", afirma en un estudio Andrea Baronchelli, catedrático de Ciencias de la Complejidad.

Otros artículos interesantes:

Ver sus artículos

Carolina González

Redactora

Carolina González, redactora de actualidad, reportajes a fondo, análisis de todo tipo de productos y vídeos para el canal de Youtube.