El modelo de IA o3 de OpenAI queda por debajo de lo prometido en los benchmarks

OpenAI a veces se equivoca, como con los resultados que esperaba del modelo de inteligencia artificial o3, cuyos niveles de cómputo son más pequeños de lo que dijo.
La compañía de Sam Altman se cogió las vacaciones de Navidad con una muy buena noticia: la presentación de su familia de modelos de inteligencia artificial o3 y o3-mini, que prometían ofrecer un rendimiento mejorado con respecto a los modelos anteriores, para acerarse a la llamada Inteligencia Artificial General (AGI).
Este modelo se dio a conocer en sus famosos 12 días de OpenAI, en los que la tecnológica presentó otras de sus novedades más potentes, como el modo de voz avanzado para ChatGPT, el lanzamiento del buscador ChatGPT Search en la versión gratuita del chatbot o la llegada oficial de su modelo de IA o1.
Según explicó en esta presentación el vicepresidente sénior de investigación de OpenAI, Mark Chen, la familia de modelos de IA o3 no tenía parangón, al brindar a los usuarios mejoras en el rendimiento en comparación con sus predecesores, según los resultados de pruebas de gran prestigio.
Entre ellas, la American Invitational Examination, que determinó que o3 lograba una precisión del 96,7% frente a un 83,3% que obtenía o1.
Otra de las pruebas a las que OpenAI sometió su modelo es la conocida como ARC-AGI, que evalúa la eficiencia con la que una IA puede comprender y generar una respuesta a partir de poca información, lo que demuestra que puede acercarse a la inteligencia humana. Con este parámetro, OpenAI dijo que o3 había logrado una puntuación del 87,5%.
Teniendo en cuenta que el umbral del 85% es comparable con el rendimiento humano, la tecnológica sugirió que su invento suponía un gran avance para la inteligencia artificial generativa y empezó a frotarse las manos porque, hasta entonces, ninguna otra desarrolladora de este tipo de tecnología lo había conseguido.
OpenAI prometió unas tasas de rendimiento que o3 no alcanza
Estas grandes promesas de potencia y rendimiento parecen hacerse quedado en nada ahora, cuando se ha determinado que OpenAI no se acerca tanto a la AGI como había prometido. Al menos, así lo aseguran los responsables de FrontierMath, un punto de referencia de problemas matemáticos de nivel experto que se utiliza para medir las capacidades matemáticas de la inteligencia artificial.
Y es que, entre las muchas flores que se echó OpenAI en relación a las amplias capacidades de este modelo, se encuentra la relacionada con este benchmark, ya que la compañía aseguró que su IA podía responder poco más de una cuarta parte de las preguntas de FrontierMath, un 25% muy superior al 2% que era capaz de alcanzar la competencia.
Al poco de su lanzamiento, Epoch AI, responsable de FrontierMath, publicó los resultados de sus pruebas de referencia independientes de o3 y aseguró que de eso nada, que OpenAI había obtenido una puntuación cercana al 10% en FrontierMath, es decir, un 15% menos de lo que había declarado al anunciar su modelo de IA.
En cualquier caso, Epoch se lavó las manos insistiendo en que su configuración de pruebas distaba de la que avanzó OpenAI porque ésta había utilizado una versión más antigua de FrontierMath para su evaluaciones y que ellos lo habían comparado con la actualización más reciente de su punto de referencia.
La organización sin ánimo de lucro ARC Prize Foundation ha suscrito esta afirmación y ha dicho que "todos lo niveles de cómputo de o3 publicados [por OpenAI] son más pequeños" que la versión que ha tenido la oportunidad de probar.
Así, ha dicho que "el o3 lanzado está optimizado para el uso del chat/producto", lo que podría explicar que sus resultados no son tan destacados como los anunciados por OpenAI, que evalúa sus modelos con dispositivos internos más potentes. Esto, en su opinión, "presenta tanto fortalezas como debilidades en ARC-AGI".
Por tanto, ha sugerido que esperan que los niveles de cómputo más grandes obtengan resultados más competentes en las pruebas de referencia. Con ello, ha adelantado que volverán a probar los niveles de cómputo publicados y que darán a conocer los resultados actualizados, para etiquetar los que ya tiene en su mano como puntuaciones correspondientes a la "vista previa" del modelo de IA de OpenAI.
OpenAI confía en que su modelo seguirá mejorando con el tiempo
Desde OpenAI también se han cubierto las espaldas, sugiriendo que si no se han obtenido los resultados esperados es porque no se ha utilizado como debería.
En una sesión compartida en YouTube, Wenda Zhou, uno de los miembros del equipo técnico de OpenAI dijo hace unos días que el o3 en producción "está más optimizado para casos de uso reales" y que su velocidad es superior a la que mostró en diciembre.
En este encuentro de expertos, Zhou también reconoció que, aunque se había mejorado o3 para que fuera "más rentable y útil en general", OpenAI seguía confiando en que "este modelo sea mucho mejor". "No habrá que esperar tanto tiempo para obtener una respuesta, algo que es habitual con este tipo de modelos", subrayó.
Queda por ver cuál es la respuesta de o3 en las próximas semanas, conforme la tecnológica vaya perfeccionándolo. No obstante, en breves pegará un volantazo para pasar de éste y o4-mini, que también está disponible ya para usuarios de pago; al esperado GPT-5. Aunque se ha retrasado su aterrizaje, todo apunta a que será mejor de lo esperado.
Otros artículos interesantes:

Noelia Murillo
Redactora
Noelia Murillo, redactora de Computer Hoy. Realiza pruebas de producto, reportajes y noticias de actualidad relacionadas con el sector. También te cuenta lo que ha analizado en redes sociales.