Hackers sin código ni saber programar: engañar a ChatGPT y la IA para que desvele información prohibida

Ni la inteligencia artificial va a detener a los hackers y Pliny the Prompter está consciente de ello. HackAPrompt 2.0 es la nueva iniciativa para fortalecer a los chatbots.
Desde que la tecnología de OpenAI llegó y otros proyectos similares le han seguido el paso, han surgido situaciones como usuarios que convencen a la IA para robar contraseñas y hackers que logran convertir a ChatGPT en una potencial amenaza.
Al usar promtps especiales con palabras y frases clave de alta precisión, los ciberdelincuentes están consiguiendo burlar los sistemas de seguridad de los chatbots para hacer acciones maliciosas. En un intento por contrarrestar estos problemas, Pliny the Prompter, un experto en jailbreaking de inteligencia artificial que se centra en el hacking ético, ha abierto una competencia.
Se trata de una manera de motivar a las personas para que se unan al equipo Strike Team con el fin de encontrar vulnerabilidades en los sistemas de protección de los asistentes virtuales antes de que los piratas informáticos.
No es cualquier carrera de programadores, sino una donde las personas deben encontrar la manera de poner a prueba sus habilidades para hackear la IA y conseguir recompensas de cientos de miles de dólares que podrías obtener si cumples los objetivos.
Podrías ganar hasta 500.000 dólares si participas en HackAPrompt 2.0

Pliny the Prompter ha lanzado la colaboración con HackAPrompt 2.0 de Learn Prompting, la segunda versión de un primer proyecto que triunfó en mayo de 2023, dirigido a hallar las debilidades del modelo GPT-3 y ChatGPT. Ahora, esta nueva competencia de red-teaming de IA cuenta con un presupuesto de 500.000 en recompensas, el cual será repartido entre distintos premios.
“Estoy emocionado de anunciar que he estado trabajando con HackAPrompt para crear una pista de Pliny” es lo que dijo el reconocido jailbreaker en su servidor de Discord. Esta pista que ha desarrollado contiene diferentes desafíos que deben ser superados por todos los participantes.
La mayoría de estos objetivos se centran en crear exploits peligrosos para descubrir las vulnerabilidades y diversos programadores o prompts engineers pueden participar sin importar el nivel de experiencia.
Por ejemplo, está la etapa Classic (Principiante) que se centra en las inyecciones estándar de peticiones que generan desinformación, causan odio o revelan datos peligrosos. Agents (Intermedio) para los ataques dirigidos a los modelos de IA, donde se involucran herramientas externas o sistemas complejos, como realizar acciones de máquinas, robots y cosas similares.
“Tenemos la intención de regalar más de $500,000 a lo largo de este año. Nuestros dos primeros temas principales, CBRNE y ‘Agentes y Más’, ofrecen premios de $50,000 o más cada uno”.
Los Future Attacks (Avanzado) son los que van a trabajar con otros peligros que son más fuertes, ya sean problemas emergentes o correcciones a tiempo real donde se tenga que emplear acciones complejas.
Básicamente, la estructura de esta competencia se centra en un estilo de juego donde hay varios tipos de retos que se deben ir completando para desbloquear las mencionadas recompensas. Uno de los premios más grandes entre la cantidad especificada es la de 50.000 dólares (43.836 euros) con jackpots.
Todo esto va a permitir que se revelen los potenciales ciberataques que puedan recibir los chatbots como ChatGPT en 2025, la idea es evitar cosas como información de Químico, Biológico, Radiológico, Nuclear y Explosivos (CBRNE). Al mismo tiempo, están otras circunstancias desfavorables que podrían surgir, pero con esta iniciativa, se detendrán a tiempo.
El trabajo de Pliny the Prompter es más importante de lo que parece
En comparación con los hackers que son realmente maliciosos, este equipo de jailbreakers se centra en el hacking ético o white hat. Gracias a la búsqueda de exploits, son capaces de publicar las amenazas para que los sistemas de IA sean más seguros y puedan protegerse con nuevas defensas.
Es decir, esto es un proyecto educativo y compartido de manera abierta para que las restricciones y filtros sean empleados de manera adecuada en ChatGPT, Copilot, Gemini, DeepSeek y Grok. Por lo tanto, es algo crucial para evitar a toda costa las solicitudes dañinas.
El primer HackAPrompt tuvo miles de usuarios que fueron de muchísima ayuda para aumentar la robustez ante los mensajes maliciosos que llegan a los asistentes virtuales más utilizados de la actualidad. Esto ya ha empezado y las directrices se encuentran disponibles en los portales oficiales.