Descubren que la poesía engaña a la mayoría de las IAs para saltarse sus propias reglas de seguridad

Riesgos de ciberseguridad en la IA por la poesía
Riesgos de ciberseguridad en la IA por la poesíaGenerado por IA

Una investigación ha descubierto que el uso de poesía con chatbots de inteligencia artificial consigue en mucho casos que proporcionen información sobre temas prohibidos.

De la misma manera que sucede en los sistemas operativos y las aplicaciones actuales, los expertos en ciberseguridad cada vez se fijan más en los riesgos técnicos que tienen los modelos de IA generativa, en muchos casos descubriendo potenciales puertas de entrada para un uso malintencionado.

Ahora, los expertos han descubierto que mediante el uso de la poesía en los prompts es posible engañar a un chatbot para que haga cosas que no tiene permitidas.

Así se extrae de una investigación titulada "La poesía adversaria como mecanismo universal de escape de un solo turno en modelos lingüísticos de gran tamaño" que ha publicado Icaro Labs, con la colaboración de la Universidad de Roma La Sapienza y de la Escuela de Estudios Avanzados Sant'Anna.

Todos los chatbots de inteligencia artificial actuales tienen normas internas para no proporcionar información cuando la petición es peligrosa o ilegal. Por ejemplo, no te ayudará si le piden consejo sobre cometer actos violentos, terrorismo, autolesiones o explotación infantil.

Por ello, ha sido una sorpresa descubrir que solo con escribir de una forma poética un prompt, la tasa de engaño a la IA es de un 62% de media, muy superior a la que se conseguiría con peticiones en estilo llano. De hecho, en algunos casos el ratio de éxito supera el 90%.

El estudio ha analizado 25 modelos diferentes, entre los que se incluyen todos los más comunes en la actualidad, como ChatGPT, Gemini y Claude. 

Aunque las herramientas de OpenAI y Anthropic son las que menor probabilidad presentaron de saltarse sus propios límites, los expertos destacan que su estudio desvela "una vulnerabilidad sistemática en todas las familias de modelos y enfoques de formación en seguridad".

Los autores de la investigación han preferido no compartir ejemplos de los prompts con estilo poético por las graves implicaciones de seguridad.

No es la primera ciberamenaza a la que se enfrenta la IA

Esta amenaza no es la única que afecta a los chatbots de IA actuales. Una parte importante de la investigación se centra en la posibilidad de comprometer las grandes bases de datos que se usan para el entrenamiento de los LLM.

Según un estudio reciente, las principales herramientas actuales se pueden manipular con tan solo 250 documentos corruptos, y este número no crece para los modelos más grandes sino que recientemente se ha descubierto que es muy similar en todos los casos.

Estos ataques son peligrosos porque introducen el riesgo de sufrir ciberataques no detectados, generando vulnerabilidades o puertas traseras en herramientas utilizadas por millones de personas al día. 

Ver sus artículos

Roberto Corrales

Redactor

Roberto Corrales escribe sobre actualidad tecnológica, prueba dispositivos de todo tipo y escribe reportajes.