OpenAI asegura que GPT-4.5 es menos propenso a las "alucinaciones": ¿qué significa exactamente?

La compañía de ChatGPT ha compartido los resultados del nuevo modelo GPT-4.5, que presenta la tasa de alucinación más reducida de todos, con un 37,1%. Este ratio es vital si se quiere avanzar en un conocimiento más profundo de los modelos de lenguaje natural.
OpenAI lanzó a finales de febrero de este mismo año una vista previa del modelo GPT-4.5, el más avanzado en capacidades de la compañía.
En una publicación en su blog, la compañía de Sam Altman ha compartido algunos de los datos más relevantes de este modelo avanzado, en comparación con sus versiones anteriores, o1, o3-mini y 4o. En todos los casos, este supera a los anteriores.
Así, uno de los valores a destacar es que presenta un porcentaje inferior en lo que tiene que ver con la tasa de alucinación. Según explican desde Google Cloud en su página, esta se refiere a los resultados incorrectos o engañosos que pueden generar este tipo de modelos.
Esto puede deberse a varios factores, como un entrenamiento insuficiente, suposiciones incorrectas que plantea el modelo para rellenar el contexto o los sesgos que los datos provocan al entrenar a la IA.
En el caso del modelo GPT-4.5, OpenAI sitúa esta tasa de alucinación en el 37,1%; continúa siendo una cifra algo elevada, pero que se reduce notablemente respecto a los otros –aquí, menor tasa de alucinación implica mejor rendimiento del modelo en este ámbito–.
En comparación, el modelo o1 se queda en un 44%, seguido de 4o, con un 61,8% y el más ligero, o3-mini, que se coloca en el 80,3%. De esta forma, GPT-4.5 permite reducir a más de la mitad esta tasa de alucinación respecto a o3-mini.
Adicionalmente, esta tasa está relacionada directamente con un conocimiento más profundo del mundo para los modelos de lenguaje natural o LLM, además de la tasa de precisión. En tal caso, GPT-4.5 ofrece una tasa de precisión del 62,5%, cuadruplicando la de o3-mini, del 15%.
Para el entrenamiento de este modelo avanzado de lenguaje, OpenAI ha usado superordenadores de Microsoft Azure AI.
"El resultado es un modelo que tiene un conocimiento más amplio y una comprensión más profunda del mundo, llevando a la reducción de alucinaciones y más fiabilidad en una amplia gama de temas", ha confirmado la compañía en su blog.
En el apartado de las alucinaciones, hay que tener en cuenta varios errores a los que han dado lugar históricamente algunos de los LLM. Por ejemplo, como comparte en su página IBM, Sidney, una IA de Microsoft, admitía enamorarse de los usuarios, además de espiar a los empleados de Bing.
Un hecho que se agrava en aplicaciones como un modelo de IA sanitario, que podría identificar incorrectamente los síntomas, por ejemplo, dando lugar a intervenciones médicas innecesarias. De momento, parece que el último modelo de ChatGPT ha mejorado esto considerablemente.
