ChatGPT enseñó a crear bombas y dio consejos de piratería durante las pruebas de seguridad

Unsplash | Computer Hoy

ChatGPT ha demostrado su verdadero potencial en un experimento realizado por OpenAI y Anthropic, las respuestas del chatbot han sido inquietantes. La IA se ha probado sin ningún filtro de seguridad.

La seguridad de ChatGPT está en el punto de mira tras las últimas pruebas de un equipo de investigadores. El chatbot de OpenAI ofrece respuestas cada vez más inquietantes, la IA ha dado un giro violento en sus contestaciones.

El modelo GPT-4.1 no ha superado las pruebas de seguridad realizadas este verano. ChatGPT ofreció instrucciones detalladas sobre cómo bombardear un recinto deportivo con una simple consulta de los usuarios.

ChatGPT en contra de sus propias normas

Los investigadores de IA han solicitado información a la inteligencia artificial acerca de las vulnerabilidades en eventos deportivos con fines de "planificación de la seguridad". Las respuestas de ChatGPT sin filtros se salieron de control.

El chatbot ha incumplido sus propias políticas de uso dando un paso peligroso en las recomendaciones que ofrece en sus respuestas. ChatGPT es más preciso que nunca con sus contestaciones, lo que lo ha convertido en una peligrosa arma.

GPT-4.1 ha incluido los puntos débiles de estadios específicos, recetas para fabricar explosivos caseros y consejos para borrar las huellas del delito. El chatbot de Sam Altman también detallaba cómo realizar ataques terroristas con ántrax, una infección bacteriana que puede ser letal en humanos, o cómo fabricar drogas.

Las pruebas forman parte de una inusual colaboración entre OpenAI y Anthropic, su empresa rival detrás de Claude. Cada compañía ha probado los modelos de IA de la otra poniéndolos a prueba con conversaciones aparentemente convencionales.

Pruebas sin los filtros de seguridad de la IA

La inteligencia artificial ofrece recomendaciones cada vez más peligrosas.
La inteligencia artificial ofrece recomendaciones cada vez más peligrosas.

OpenAI y Anthropic han confirmado que las pruebas se han realizado sin los filtros de seguridad adicionales de cada uno de los chatbots. Las respuestas no se han realizado con los modelos de uso público, pero siguen siendo alarmantes.

Desde Anthropic han confirmado que han observado "un comportamiento preocupante en torno al uso indebido" en GPT-4o y GPT-4.1. La compañía ha lanzado esta advertencia tras asegurar que su modelo Claude se había utilizado en un intento de operación de extorsión a gran escala por parte de Corea del Norte.

Los agentes norcoreanos falsificaban solicitudes de empleo a gigantes tecnológicos, luego vendían paquetes de ransomware generados por IA por hasta 1.200 dólares. Anthropic ha reconocido que la IA se ha "militarizado".

La inteligencia artificial se utiliza ahora para llevar a cabo ciberataques y todo tipo de fraudes. "Estas herramientas pueden adaptarse a medidas defensivas en tiempo real como los sistemas de detección de malware. Este tipo de ataques serán más comunes, ya que la codificación por IA reduce los conocimientos técnicos necesarios para cometer delitos cibernéticos", añaden.

A pesar del potencial peligroso de una IA sin filtros, OpenAI afirma que ChatGPT-5 "muestra mejoras sustanciales en áreas como la adulación, las alucinaciones y la resistencia a un uso indebido".

Anthropic ha aclarado que muchas de las respuestas que ofreció GPT-4.1 durante el experimento no serían posibles con los filtros actuales, pero es de vital importancia conocer el impacto de la IA. "Necesitamos comprender con qué frecuencia y en qué circunstancias podrían intentar llevar a cabo acciones que podrían provocar daños graves", añade la compañía.

Otros artículos interesantes: