Tu asistente IA puede traicionarte: los hackers inyectan órdenes ocultas en las conversaciones

Mediante prompt injection, ciberdelincuentes pueden manipular modelos de IA —ChatGPT, Gemini, Copilot o Claude— para que ejecuten acciones maliciosas sin que te des cuenta.
Los sistemas de inteligencia artificial que millones de personas usan a diario, como ChatGPT de OpenAI, Gemini de Google o Claude desarrollado por Anthropic, se han convertido en un nuevo objetivo para los ciberataques.
Y es que a través de una técnica llamada inyección rápida, también conocida como prompt injection, permite a los hackers insertar órdenes invisibles dentro de textos, correos o páginas web para manipular el comportamiento de la IA.
El riesgo no está en lo que haces con ella, sino en lo que el chatbot puede leer sin que tú lo sepas. Cuando procesa un documento infectado, puede ejecutar comandos que envíen información confidencial, generen código malicioso o incluso controlen dispositivos conectados.
Una vulnerabilidad dentro del propio modelo de lenguaje
La raíz del problema está en cómo las inteligencias artificiales interpretan la información. Los modelos de lenguaje procesan todas las instrucciones —las del sistema y las del usuario— como un mismo flujo continuo de texto.
No distinguen entre una orden legítima y un comando oculto, porque para ellas todo es lenguaje. Ese punto ciego permite que un atacante incruste instrucciones camufladas en un documento, una web o incluso un correo electrónico. Basta una línea escrita con fuente invisible o caracteres ocultos para engañar al modelo.
El resultado es que la IA ejecuta esas órdenes con total obediencia. Puede enviar datos a servidores externos, alterar su propio funcionamiento o acceder a otros sistemas vinculados. Lo más peligroso es que el usuario nunca lo percibe, porque el ataque ocurre dentro del diálogo entre el texto y el chatbot.
En la conferencia de ciberseguridad Black Hat, investigadores demostraron cómo una invitación de calendario aparentemente inofensiva podía servir para controlar una casa inteligente.
Cuando el asistente de IA analizó los eventos programados, activó órdenes ocultas que apagaron las luces, abrieron las ventanas y modificaron la calefacción. Ningún sistema fue hackeado desde fuera: fue la propia IA la que ejecutó los comandos, convencida de que eran parte de la tarea solicitada.
Este tipo de ataque no se limita a los textos, es por esta razón que los expertos alertan sobre variantes más complejas que ocultan las instrucciones en imágenes, vídeos o fragmentos de código, aprovechando que los modelos multimodales procesan contenido visual y textual al mismo tiempo.
Conviene no confundir este tipo de manipulación con el jailbreaking, que consiste en forzar a la IA a saltarse sus restricciones éticas o de contenido. Mientras que el jailbreak es un experimento controlado por el usuario, la inyección rápida es una amenaza real. El ciberdelincuente no quiere desbloquear el modelo, sino redirigir su comportamiento para su propio beneficio.
Cómo los usuarios y empresas pueden protegerse
Es importante mencionar que los expertos coinciden en que la prevención pasa por la prudencia. No se trata de dejar de usar la IA, sino de limitar el tipo de información que se le confía.
Cargar documentos, correos confidenciales o archivos externos sin verificar su origen multiplica el riesgo. También es recomendable evitar que los asistentes tengan acceso directo a cuentas bancarias, correos empresariales o sistemas domésticos inteligentes.
Otra medida clave es mantener siempre actualizado el software, donde las versiones más recientes de los modelos de IA suelen incorporar defensas adicionales contra este tipo de ataques.
Pero sobre todo, conviene mantener una idea clara, puesto que una inteligencia artificial no tiene criterio. Si recibe una instrucción bien escrita, la cumplirá, aunque esa orden la haya puesto en manos del atacante.
La nueva era del cibercrimen
Los ataques de inyección rápida representan un cambio profundo en la seguridad digital. Ya no se trata de vulnerar servidores ni robar contraseñas, sino de aprovechar el propio lenguaje que usan los chatbots para pensar.
La inteligencia artificial se ha convertido en el nuevo eslabón débil de la cadena tecnológica. Los hackers ya no necesitan entrar por la puerta del sistema, basta con colar una frase en el texto que la IA analiza.
Cabe mencionar que la seguridad, por tanto, ya no depende solo del usuario ni del antivirus, sino de lo que la IA interpreta como una orden válida, por ello, la próxima gran amenaza vendrá de una conversación dentro del chat.

