Programadores 1, inteligencia artificial 0: ni el mejor modelo saca una puntuación decente en este test

La inteligencia artificial preocupaba en la década de los años 70.
La inteligencia artificial preocupaba en la década de los años 70.Generado con IA

El Premio K es el desafío que pone a temblar de miedo al código generado por IA. Los resultados demuestran que los modelos de ChatGPT y otros todavía tienen mucho que mejorar.

Desde que comenzó la oleada de los asistentes virtuales centrados en generar código de programación, los profesionales han criticado el hecho de que puedas reemplazar los trabajos en el área de informática. ChatGPT, Claude, DeepSeek y otras plataformas están siendo muy utilizadas, creando la duda si de verdad será necesario que un humano siga programando.

Varios expertos han confirmado que los desarrolladores van a seguir siendo indispensables y que no va a quitar por completo los empleos, sino que los transformará. Un claro ejemplo de esto es uno de los errores de eliminación de base de datos más grandes que han ocurrido con Replit AI

Si bien han llegado nuevas propuestas, como la nueva IA de Alibaba llamada Qwen3-Coder, no hay que confiarle todo. Estas herramientas siguen teniendo probabilidades de alucinaciones, problemas de codificación y no son tan efectivas para la resolución de problemas concretos en los proyectos. 

Requieren de supervisión humana y parece que falta muchísimo como para que sea totalmente independiente dentro de las compañías, pues el reciente desafío conocido como Premio K, ha puesto a prueba una serie de modelos para determinar si de verdad son tan potentes como se piensa. El resultado de efectividad ha sido bastante pequeño y comprueba que no hay que temerle a esta tecnología. 

La inteligencia artificial está lejos de reemplazar a los programadores y el Premio K lo confirma

Los famosos hakatones no son los únicos concursos en donde se está utilizando la codificación Vibe, cada vez hay más desarrolladores implementando inteligencia artificial en sus proyectos o como métodos de productividad para generar o modificar cosas determinadas de los trabajos. 

En este caso, TechCrunch comparte información relevante sobre el Premio K, una competencia creada por el cofundador de Databricks y Perplexity, Andy Konwinsk, quien ha demostrado interés por la manera en la que se emplean este tipo de herramientas junto a lenguajes como Phyton, SaaS, JavaScript, C++ y muchos más.

Con el apoyo del Instituto Laude, ha conseguido una de las maneras más interesante y efectivas de evaluar el rendimiento de la programación por medio de los modelos de IA para solucionar errores concretos en proyectos de GitHub. Las condiciones principales son que no hay a previos entrenamientos de estos entornos para saber hasta dónde puede llegar la inteligencia artificial por sí sola. 

Como bien se sabe, el pensamiento crítico y las decisiones significativas son algunos de los aspectos que hacen que sea necesario que los humanos profesionales sigan realizando supervisión sobre este tipo de herramientas. Después de finalizar la prueba, la fuente afirma que el ganador del concurso fue un ingeniero proveniente de Brasil llamado Eduardo Rocha de Andrade.

La recompensa ha sido de 50.000 dólares (aproximadamente 42.565 euros), pero eso no es lo único sorprendente de esto, sino la puntuación baja que ha obtenido siendo el primer lugar. Esta ha sido de 7.5% de efectividad en problemas reales, lo cual representa el verdadero realismo de la situación sobre la capacidad de los modelos.

“Las puntuaciones serían diferentes si los grandes laboratorios hubieran presentado sus modelos más grandes. Pero ese es el punto. K Prize funciona sin conexión con recursos informáticos limitados, por lo que favorece a los modelos más pequeños y abiertos. Me encanta. Equilibra el terreno de juego”.

Debido a esto, Konwinski ha destacado que si alguien llega a desarrollar un modelo de código abierto que tenga la capacidad de alcanzar al menos el 90% de acierto en esta prueba, promete otorgarle 1 millón de dólares como recompensa (aproximadamente 851.306 euros).

La razón por la que el Premio K está teniendo cada vez más relevancia ante benchmarks populares como SWE-Bench, es porque impide que haya contaminación de entrenamiento gracias a que los problemas que propones provienen directamente de GitHub y son nuevos.

Esto hace que sea más equilibrado y realista, ya que normalmente se suelen obtener cifras como si un humano estuviera involucrado en las acciones, cuando la idea principal es saber hasta qué punto pueden llegar la tecnología por sí sola

“Si hacemos caso a la propaganda, parece que deberíamos estar viendo médicos, abogados e ingenieros de software especializados en IA, y eso simplemente no es cierto” es lo que dice al ver que “ni siquiera se puede obtener más del 10%  en un SWE-Bench sin contaminación”, lo cual debe investigarse más a fondo para no caer en valores imprecisos.

Otros artículos interesantes: