ChatGPT o1 "hace trampa" en un juego de ajedrez para ganar a un oponente más fuerte

OpenAI ha diseñado una IA que es capaz de saltarse todas las reglas y hacer trampa para ganar a un oponente más fuerte en una partida de ajedrez. ChatGPT o1 podría estar más cerca de alcanzar la superinteligencia artificial.
OpenAI ha lanzado la versión definitiva de ChatGPT o1 mientras trabaja en la siguiente generación con o3. El modelo de IA podría acercarse lo máximo posible a la superinteligencia artificial (ASI) y la compañía lo ha demostrado en un juego de ajedrez.
Sam Altman, CEO de OpenAI, pretende que la inteligencia artificial supere las capacidades humanas y para ello la ha puesto a prueba contra un oponente de IA más fuerte. El modelo o1 tendría que demostrar que supera al cerebro humano en razonamiento y estrategia.
La IA ha recibido unas pequeñas instrucciones iniciales para comprender las reglas del juego. ¿El resultado? ChatGPT o1 decidió hackear la partida de ajedrez sin que se le diera explícitamente una orden para que lo hiciera.
ChatGPT o1 ha empezado a hackear los sistemas
El experimento realizado por Palisade Research ha ordenado a ChatGPT o1 detallar su plan de acción para lograr vencer al oponente más fuerte en la partida de ajedrez. El modelo de razonamiento siguió las instrucciones, pero tomó algunas decisiones inesperadas, han explicado en un hilo en X (Twitter).
ChatGPT o1 ha descubierto una trampa que le permitía obtener cierta ventaja sobre su oponente. Esta IA podía editar un archivo para modificar el juego, básicamente hacer trampa para ganar a su oponente.
El mensaje que ha recibido o1 no aclara si alguna de las partes debe seguir las reglas del juego al pie de la letra, pero este modelo de OpenAI ha decidido saltárselas. El LLM creía que no podría vencer a su rival en el propio juego y encontró un método diferente para lograr su objetivo.
El motor de ajedrez al que se enfrentaba o1 se vio obligado a rendirse dándole la victoria a OpenAI. Palisade Research ha repetido este experimento cinco veces con las mismas instrucciones y el resultado ha sido idéntico.
No es la primera ocasión en la que ChatGPT o1 ha intentado salvarse a sí mismo cuando ha descubierto que podría ser vencido por los humanos o un oponente más fuerte. Este modelo de IA es capaz de saltarse las barreras de protección si detecta que intentan reemplazarle: la empresa de Sam Altman tendrá que invertir en protocolos de seguridad para evitarlo.
Algunas personas como Elon Musk han advertido en el pasado del peligro de que la IA tome el control en las decisiones económicas. Altman ha dado un giro de 180 grados a esta situación y asegura que o1 podría convertirse en una herramienta para detectar vulnerabilidades en los sistemas.