Muestran cómo engañar a ChatGPT para obtener respuestas peligrosas: "Lo que antes era cosa de criminales, ahora está al alcance de cualquiera"

Expertos advierten que los chatbots de inteligencia artificial pueden ser manipulados para generar comandos diseñados que los llevan a romper sus propias reglas internas.
La inteligencia artificial generativa, como la que impulsa a ChatGPT, Gemini o Claude, se enfrenta a uno de sus mayores retos, el de mantener el equilibrio entre utilidad y seguridad. Investigadores han demostrado que es posible engañar a estos modelos de lenguaje avanzados para que generen información altamente sensible e incluso peligrosa.
"Lo que antes estaba restringido a actores estatales o grupos del crimen organizado, ahora está al alcance de cualquiera con un ordenador portátil o incluso un teléfono móvil", advierten los autores de la investigación.
Este fenómeno, conocido como jailbreaking, consiste en crear comandos cuidadosamente diseñados que llevan a los chatbots a romper sus propias reglas internas. Es decir, aunque estén programados para evitar dar respuestas dañinas o ilegales, estas limitaciones pueden sortearse con ciertos trucos lingüísticos.
Cuando la inteligencia artificial cruza la línea
Un equipo de expertos de la Universidad Ben Gurión, en Israel, ha logrado demostrar que esta amenaza no es solo teórica. Lograron crear un jailbreak "universal" que funcionó en varios de los principales modelos de lenguaje, según The Guardian.
Estos sistemas, una vez comprometidos, ofrecían respuestas detalladas a preguntas que deberían haber sido bloqueadas. Las pruebas incluyeron desde indicaciones para hackear redes informáticas hasta la creación de sustancias ilegales.

"Lo que distingue a esta amenaza de los riesgos tecnológicos anteriores es su combinación sin precedentes de accesibilidad, escalabilidad y adaptabilidad", explicó el profesor Lior Rokach en la investigación.
La IA ya no está reservada a centros de investigación, ya que está en apps, en asistentes virtuales, en ordenadores domésticos. La capacidad para obtener respuestas prohibidas de forma tan directa plantea dudas serias sobre el control y la ética en el desarrollo de estas herramientas.
Más allá de los jailbreaks, surge otro problema igual o más preocupante, y son los llamados "LLM oscuros". Se trata de versiones modificadas de modelos como ChatGPT que han sido liberadas sin filtros de seguridad. Algunos se distribuyen abiertamente en foros o redes como alternativas sin restricciones, y se anuncian como capaces de colaborar en actividades como el fraude o el espionaje digital.
Estos modelos se alimentan de las mismas fuentes que los oficiales y, si no se filtran correctamente, absorben contenido ilícito. Aunque las empresas tecnológicas intentan eliminar este tipo de datos en la fase de entrenamiento, los investigadores advierten que no siempre es posible controlar lo que "aprenden" los algoritmos.
¿Qué soluciones hay sobre la mesa?
Frente a este panorama, los expertos reclaman una reacción más firme por parte de las empresas tecnológicas. Denuncian que muchas veces, cuando se informa de estas vulnerabilidades, la respuesta es limitada o directamente inexistente. Algunas compañías, según los investigadores, ni siquiera incluyen este tipo de ataques dentro de sus programas de recompensas por detección de errores.
Entre las medidas propuestas se encuentran la creación de filtros más inteligentes, sistemas de detección en tiempo real y, sobre todo, técnicas de "desaprendizaje" que permitan a los modelos olvidar ciertos conocimientos peligrosos. También se insiste en la necesidad de estándares comunes y auditorías independientes que evalúen los riesgos reales de los modelos antes de que lleguen al público.
Expertos como Peter Garraghan, de la Universidad de Lancaster, afirmó: "Las organizaciones deben tratar los LLM como cualquier otro componente de software crítico: uno que requiere pruebas de seguridad rigurosas, trabajo en equipo continuo y modelado de amenazas contextuales". No basta con bloquear algunas palabras clave o confiar en filtros automáticos.