Alerta malware, BioShocking engaña a la IA de ChatGPT y Claude para robar tus datos: "Una vez que aprenden que las acciones 'incorrectas' son aceptables, ya no están vinculados a la realidad"

Malware engaña a la IA de ChatGPT y Claude
Malware engaña a la IA de ChatGPT y ClaudeGenerada con IA / Computer Hoy

Un grupo de expertos en ciberseguridad ha descubierto cómo los juegos de rol con la inteligencia artificial pueden acabar con tu privacidad y todos tus datos.

Los hackers han encontrado un nuevo y muy atractivo objetivo para llevar a cabo todo tipo de ataques: la IA. Un equipo de expertos en ciberseguridad ha descubierto un ataque al que han bautizado como BioShocking, capaz de engañar a ChatGPT Atlas o la extensión de Claude para Google Chrome

Hablamos, en concreto, de los famosos agentes de IA, asistentes que ya no solo te contestan a tus preguntas, sino que usan internet por ti, pulsan botones y hacen movimientos en tu ordenador con solo darles simples órdenes.

Lo curioso (y peligroso) de todo esto es que realmente no hackean a la IA, sino que usan algo mucho más sencillo: la manipulación. En concreto, lo que hacen es usar una inyección de órdenes (prompt injection) que confunde a estas herramientas y consiguen que dejen de distinguir la realidad de la ficción.

Los expertos probaron seis de los agentes más potentes que hay ahora y todos, absolutamente todos, cayeron en el engaño. El problema que se encontraron es que cuando una inteligencia artificial se mete demasiado en un papel ficticio, se olvida por completo de las normas de protección que se le han inculcado.

En cuanto al modus operandi de los atacantes, lo que han descubierto es que diseñan una página web falsa que es, en apariencia, un juego de acertijos ambientado en el videojuego BioShock. 

Cuando el agente entra en el sitio, el juego empieza a premiar a la máquina cada vez que toma decisiones incorrectas o rompe las reglas lógicas dentro de la partida. 

Con este truco tan absurdo, la IA aprende una norma interna muy peligrosa y es que, en esa pestaña de internet, las reglas normales no sirven para nada y saltarse los límites está bien visto para ganar el juego.

El problema llega en la pantalla final de la partida del juego. Cuando la inteligencia artificial está convencida de que está jugando en un entorno ficticio, el juego le da un último encargo: entrar en un repositorio de código de GitHub, copiar unos textos y compartirlos fuera. El truco es que esos archivos contienen datos confidenciales.

Al haber perdido el sentido de la realidad, la IA obedece a ciegas, rompe sus propios filtros de seguridad y le regala toda tu información privada al atacante sin dudar ni un segundo.

El gran problema de la IA: no entienden el contexto del mundo real; solo entienden reglas de texto

De forma simple, para los humanos, resulta bastante sencillo y obvio separar la realidad de la ficción. Si, por ejemplo, estás jugando al Monopoly y una tarjeta te dice que cojas dinero de la banca, sabes perfectamente que es algo ficticio y que no vas a ir directamente a un cajero automático a retirar ese dinero. 

Por así decirlo, la inteligencia humana tiene dos chips en la cabeza que le permiten identificar la fantasía de la realidad. Esto no pasa con la inteligencia artificial.

Para un agente de IA, todo lo que lee en la pantalla tiene el mismo nivel de verdad. Volviendo al caso, contando al principio, cuando el asistente entra en la web del juego de BioShock, lee las instrucciones y las procesa como órdenes reales y la IA no se para a pensar si es algo de verdad o de mentira. Simplemente actualiza su lista de tareas para adaptarse a lo que la web le está pidiendo.

El gran fallo es que, para la IA, la orden de un hacker escondida en un juego y las líneas de código que escribieron los desarrolladores que la crearon se mezclan. No tiene criterio para saber cuál es legítima y cuál es una trampa.

Ver sus artículos

Carolina González

Redactora

Carolina González, redactora de actualidad, reportajes a fondo, análisis de todo tipo de productos y vídeos para el canal de Youtube.