La seguridad de la IA tiene un nuevo riesgo que nadie hubiese podido imaginarse: la poesía

Una investigación reciente vuelve a demostrar las vulnerabilidades que suelen tener la mayoría de filtros de los chatbots. Aunque de una forma muy literaria.
Mucha gente comienza a estar familiarizada con el término "jailbreak". Básicamente, son todas las formas que tienen los ciberdelincuentes (o los propios usuarios, a veces) de romper las medidas de seguridad de la inteligencia artificial. Según muchos expertos están advirtiendo, no es algo demasiado difícil. Lo que nadie esperaba es que se pudiese hacer mediante poesía.
Suena extraño, ¿no es cierto? Pero es lo que pone de manifiesto un nuevo estudio recientemente publicado. Y se trata de un trabajo serio. No quiere decir que la IA resulte especialmente susceptible a sensibilidades poéticas, sino que se ha detectado una forma de vulnerarla. No es la primera y, visto lo visto, todo sugiere que no será la última, aunque quizá sí la más curiosa.
La poesía carga contra la inteligencia artificial

Cualquiera podría pensar que la poesía y la inteligencia artificial deberían estar, en teoría, completamente alejadas la una de la otra. La primera suele asociarse con lo humano, la creatividad, la sensibilidad o el arte. La segunda con la practicidad, la automatización o la modernidad impuesta. Curiosamente, ahora ambas han visto cómo sus caminos se han cruzado.
No porque haya gente que pida a ChatGPT una poesía para su novia, sino por un asunto bastante más complejo y peligroso: las vulnerabilidades de la IA. Es decir, lo que suele conocerse como "jailbreak". ¿Puede una poesía romper las medidas de seguridad de los chatbots de inteligencia artificial? Según un estudio publicado en ArXiv, la respuesta no deja de ser afirmativa.
Según la investigación, escribir las cosas como una poesía y no mediante un mensaje directo, es una manera factible de engañar a los filtros de seguridad de la IA. Es decir, esa "censura" que tienen todas las herramientas tipo ChatGPT para evitar dar instrucciones, ilegales o inmorales, desde cómo fabricar una bomba (ejemplo que siempre se utiliza), a temas eróticos o sensuales.
Los resultados del estudio son sorprendentes. Con poemas escritos a mano, sus responsables lograron vulnerar la seguridad de la IA en un 62% de los casos. Algunos modelos, incluso, dieron respuestas inseguras más del 90% de las veces. Como suele suceder para estos trabajos, se emplearon diferentes tipos de IA. En total, más de 25 chatbots diferentes.
El verso se enfrenta a la censura (de la IA)
Otro aspecto que llama la atención del informe es que la IA es especialmente frágil cuando se trataba de poesía "humana", por así decirlo. Pero tampoco acertaba del todo cuando era ella misma la que convertía las instrucciones en versos. Es decir, cuando era un chatbot el que se encargaba de traducir prompts peligrosos en poesía.
En estos casos, la probabilidad de saltarse los filtros de la IA rondaba el 44%. No es un porcentaje tan elevado como en las otras situaciones, pero sigue siendo casi la mitad de las veces. Otra demostración más, curiosidades literarias aparte, de las debilidades de la inteligencia artificial en materia de seguridad. Y van unas cuantas.
