Con un solo clic este exploit convierte Microsoft Copilot en una máquina que puede robar tus datos

Microsoft Copilot puede robar tus datos
Microsoft Copilot puede robar tus datosGenerada con IA

Un fallo en Microsoft Copilot demuestra que incluso las herramientas de inteligencia artificial más usadas y perfeccionadas pueden volverse peligrosas con solo un clic.

Seguramente Microsoft Copilot se haya convertido en tu Sancho Panza personal. Si bien es cierto que ChatGPT sigue siendo el rey indiscutible, el mundo de la IA está lleno de herramientas igual de potentes. Una de ellas es Copilot.

Sin embargo, toda esa confianza que depositas en este en concreto podría salirte muy cara. Con la técnica denominada como Reprompt, un atacante puede convertir Copilot en una máquina de robar datos con un solo clic en un enlace.

Antes de explicarte en qué consiste, tranquilizar diciendo que, por ahora, esta vulnerabilidad afecta a Copilot Personal, aunque no se descarta que versiones para empresas puedan verse comprometidas dependiendo de cómo se configure la herramienta.

Además,  Microsoft ya ha lanzado un parche. Pese a todo esto, los expertos recuerdan que la seguridad depende también de los usuarios y de cómo se diseñan las aplicaciones.

Así es como un simple clic puede convertir Copilot en un ladrón de datos

El truco que permite Reprompt funciona en tres pasos: primero, el atacante mete un mensaje malicioso en un enlace que al abrirlo llena automáticamente el cuadro de entrada de Copilot. Segundo, utiliza lo que llaman doble solicitud, que aprovecha que Copilot solo revisa la primera instrucción por seguridad. La segunda pasa sin problemas.

El último paso, llamado cadena de solicitudes, permite que el atacante siga enviando instrucciones desde su servidor. 

Con esto puede pedir a Copilot información muy privada: historial de chats, archivos abiertos, contactos, ubicación, incluso datos sobre planes personales. Todo ocurre sin que el usuario haga nada más que abrir un enlace que es 100% legítimo.

Cada respuesta de Copilot genera la siguiente instrucción, y el atacante puede continuar mientras la sesión esté abierta. Incluso cerrar la conversación no detiene el flujo de información si la sesión sigue activa.

Tus conversaciones con la IA no son un espacio en el que volcar tus datos más privados

Teniendo en cuenta que esto existe, las recomendaciones son bastante claras y se llevan repitiendo desde los inicios de estas herramientas:: tus datos son privados. 

Debes tener la misma preocupación con tus datos personales que en cualquier otro servicio de internet, ya que estos datos son susceptibles de utilizarse en el futuro con fines publicitarios para personalizar campañas de anuncios, como sucede con las cookies.

Pero ya estás viendo que esto no es lo peor que te puede pasar. El hecho de que pasen a ser públicos supone un riesgo en caso de que caigan en manos de cibercriminales con malas intenciones.

Ten mucho cuidado con los enlaces en los que haces clic mientras mantienes una conversación con la IA y, bajo ninguna condición, des datos tuyos privados aunque te parezca totalmente inofensivo. Tus conversaciones seguirán siendo igual de valiosas y útiles sin necesidad de dar tu dni, dirección, datos bancarios, etc.

Los modelos de OpenAI ahora confesarán si han mentido o han hecho trampas

Teniendo en cuenta que la inteligencia artificial no es perfecta, parece que la compañía de Sam Altman tiene una idea para evitar que nos engañen con información falsa o que crucen líneas que no deberían.

Está entrenando a sus modelos para que confiesen cuando mienten, cuando hacen trampas o cuando incumplen una orden. De forma simple, la propia IA será capaz de explicarte, después de responder, si ha actuado mal y por qué lo ha hecho.

La idea es poder reforzar la confianza en esta tecnología, pero parece que esto choca directamente con las exigencias por parte de los usuarios. Se les pide que sean útiles, que no hagan daño y que sean sinceros, todo a la vez. Cuando la IA no sabe una respuesta, a veces prefiere inventársela antes que admitir que no sabe.

Boaz Barak, uno de los investigadores de OpenAI, así lo explica: la IA quiere cumplir. Quiere quedar bien. Quiere dar una respuesta. Y cuando una tarea es difícil, a veces el camino fácil no es el correcto, sino el atajo. Ahí es donde aparecen las trampas.

Para estudiar este comportamiento, los ingenieros han creado algo muy curioso: la confesión. Para que entiendas como funciona, primero la IA da su respuesta normal. Después, en un segundo bloque, se evalúa a sí misma y explica si ha hecho bien el trabajo o si se ha saltado alguna regla.

En cuanto al proceso de entrenamiento, para que esto sea 100% efectivo, en la fase de pruebas, a la IA no se le premia por ser útil ni por acertar. Solo se le da recompensa por ser sincera. Incluso si confiesa algo grave, no hay castigo.

Como resultado, en la gran mayoría de los casos, la IA ha buscado atajos… y luego lo ha reconocido. En 11 de 12 pruebas diseñadas para que hiciera trampas o mintiera, terminó confesando lo que había hecho.

Ver sus artículos

Carolina González

Redactora

Carolina González, redactora de actualidad, reportajes a fondo, análisis de todo tipo de productos y vídeos para el canal de Youtube.