OpenAI anunció que dejará de usar SWE-bench Verified para medir el rendimiento de sus modelos de código. La medida, confirmada en febrero de 2026, responde a que el benchmark ya no distingue entre sistemas de vanguardia: todos los líderes superan el 90% de resolución, cuando hace un año apenas alcanzaban el 50%.
El problema principal es la contaminación de datos. Los 500 problemas que componen SWE-bench Verified provienen de repositorios abiertos que los modelos ya procesaron durante su entrenamiento. OpenAI descubrió que las redes replican casi literalmente los parches humanos originales, lo que indica memorización y no comprensión.
El segundo defecto son las pruebas mal diseñadas. En una auditoría interna, el 59,4% de los fallos rechazó soluciones funcionalmente correctas. Un caso documentado es la incidencia 18212, donde la descripción del error no coincidía con la cobertura de pruebas, generando falsos negativos que penalizan a los modelos que sí resuelven el problema.
La brecha entre benchmarks es reveladora. Claude Mythos alcanza 93,9% en Verified, pero baja a 77,8% en SWE-bench Pro, la alternativa que OpenAI promueve. La diferencia de 16 puntos demuestra que el benchmark anterior medía sobre-exposición más que capacidad real de ingeniería.

la corporación-bench Pro evalúa a los agentes en 1,865 tareas reales sobre repositorios grandes. Exige depuración multi-archivo, comprensión profunda del y generación de parches bajo restricciones de producción. La empresa considera que estos requisitos reflejan mejor el desempeño que los founders mexicanos pueden esperar al integrar IA en sus productos.
Otras opciones disponibles son la institución-bench Multilingual, con 300 tareas en nueve lenguajes de programación; la corporación-bench Multimodal, que incluye elementos visuales; y Terminal-Bench extendido, centrado en habilidades de línea de comandos. En todos ellos, las puntuaciones de Claude Mythos son menores que en Verified, lo que refuerza la tesis de que el benchmark anterior estaba saturado.
Para el ecosistema local de startups, el mensaje es directo: si el plan de producto incluye comparar modelos de código usando la institución-bench Verified, las métricas pueden estar infladas. La recomendación es migrar a Pro o a las variantes nuevas antes de tomar decisiones de inversión o arquitectura.
Etiquetas: OpenAI, ChatGPT, Claude, benchmark, software, IA, startups, Tecnología · OpenAI, ChatGPT y Anthropic
