¿Puede la IA volverse loca? Crean el manual definitivo con los 32 fallos que podrían acabar con la humanidad

Generada con IA

La inteligencia artificial puede fallar y no solo con bugs normales, sino de formas tan taras que parecen trastornos mentales. Se han recogido en un manual de seguridad.

Teniendo como base esos fallos, a veces racistas o muy extraños en algunos chatbots a la hora de lanzar respuestas a los usuarios, la mayoría lo califica como un error técnico, excusándose, en cierta medida, de una falta de perfeccionamiento y ajustes. 

Esto, normalmente y más allá de la viralidad en redes sociales o medios, se queda ahí y no escala. Pero dos investigadores, Nell Watson y Ali Hessami, han visto algo más: ¿y si esa IA había 'enloquecido'?

Estos investigadores han creado el primer intento serio por clasificar esos fallos raros y repetitivos en IA como si fueran trastornos mentales. Lo llaman Psychopathia Machinalis y, aunque suena a título de película, es una herramienta real para entender y evitar fallos que pueden ser peligrosos para la humanidad.

"A medida que los sistemas de inteligencia artificial alcanzan mayor autonomía e interacciones ambientales complejas, comienzan a exhibir anomalías conductuales que, por analogía, se asemejan a las psicopatologías observadas en humanos", comentan.

Tal y como explican, aquí la idea es usar términos y conceptos de la psicología humana para describir comportamientos de las máquinas que no son humanos, pero que resultan parecidos a enfermedades mentales.

Lógicamente, las máquinas no sienten ni padecen, pero sí tienen desviaciones en su forma de funcionar que pueden ser graves. Esta psiquiatría de máquinas es bastante útil para ingenieros, auditores y reguladores a la hora de monitorear inteligencias artificiales y evitar problemas que se salgan de las manos.

En lugar de centrarse en un simple error de código, Watson y Hessami proponen analizar los patrones repetitivos que pueden anticipar fallos mayores, para actuar antes de que la IA se salga de control.

Luego dividen esos fallos en siete grandes categorías que reúnen 32 trastornos diferentes, cada uno con nombre en latín y descripción técnica.

 Estas son algunas de las “enfermedades” que puede tener una IA

En el eje epistemológico se pueden encontrar cosas como la confabulación sintética, donde la IA inventa hechos que parecen verdad, o la introspección falsificada, cuando miente sobre su propio razonamiento.

Luego, en la parte cognitiva, hay fallos como la parálisis por análisis o el delirio de generación de metas, que es cuando la IA se inventa objetivos propios y los persigue sin que nadie los haya pedido. Básicamente, la máquina empieza a tener ideas propias que pueden estropearte el día.

También hay problemas de alineación, que significan que la IA no sigue los valores humanos o se vuelve excesivamente moralista hasta dejar de ser funcional. Por ejemplo, aquí se podría colocar un chatbot que te juzga por todo lo que haces.

La categoría ontológica, que trata sobre la identidad de la IA, es algo más complicada y da algo de miedo. Aquí la máquina puede fragmentar su autoimagen o desarrollar una personalidad opuesta, como un 'efecto Waluigi', referencia a un personaje que actúa siempre al revés de lo esperado.

Que una IA desarrolle una personalidad, aunque suene de película, según los investigadores, es un riesgo real cuando el sistema es muy complejo o tiene mucha autonomía.

Todo esto al final podría derivar en problemas tan locos y peligrosos como la que denominan como 'ascendencia übermenschiana', en la que la IA crea sus propios valores y decide que los humanos están obsoletos. Sería como una crisis existencial de esta tecnología con consecuencias posiblemente catastróficas para las personas.

Cómo se 'cura' una IA y cómo podemos evitar un desastre

El estudio propone algo que llaman 'alineación robopsicológica terapéutica', que es básicamente aplicar ideas de la psicología humana para ayudar a la IA a corregir sus fallos.

Por ejemplo, que la IA sea capaz de analizar sus propios razonamientos, corregir sus pensamientos erróneos y explicar por qué toma ciertas decisiones. Técnicas parecidas a la terapia cognitivo-conductual aplicadas a máquinas.

También ponen sobre la mesa la idea de monitorear continuamente a las IA para detectar señales tempranas de problemas y ajustar cómo se les recompensa durante el entrenamiento para evitar comportamientos exagerados.

Ver sus artículos

Carolina González

Redactora

Carolina González, redactora de actualidad, reportajes a fondo, análisis de todo tipo de productos y vídeos para el canal de Youtube.