Google lanza Android Bench para evaluar modelos de IA en código

Google lanza Android Bench para evaluar modelos de IA en código

Google lanza Android Bench para medir la eficacia de modelos de IA en el desarrollo de apps. Gemini 3.1 Pro lidera con 72.4%.

Por Humberto Toledo el 7 marzo, 2026 a las 23:34

💡 Resumen (TL;DR):

  • Google presentó un ranking oficial para medir el desempeño de modelos de IA en tareas reales de desarrollo de apps.
  • Gemini 3.1 Pro Preview lidera la tabla inicial con un 72.4% de éxito, superando a Claude Opus 4.6 y GPT-5.2 Codex.
  • La prueba evalúa 100 problemas reales extraídos de repositorios de GitHub, cubriendo lenguajes clave como Kotlin y Java.

Google presentó este miércoles Android Bench, un ranking oficial diseñado para medir la capacidad de los modelos de inteligencia artificial al resolver tareas reales de desarrollo en Android. Esta herramienta busca cubrir el vacío que dejaban las pruebas de código de propósito general como SWE-Bench.

En su evaluación inicial del 4 de marzo de 2026, el modelo Gemini 3.1 Pro Preview de la propia compañía se coronó en el primer lugar con una tasa de éxito del 72.4%. Sus competidores directos quedaron atrás: Claude Opus 4.6 de Anthropic alcanzó un 66.6%, mientras que GPT-5.2 Codex de OpenAI registró un 62.5%.

Matthew McCullough, vicepresidente de gestión de productos para Android Developer, explicó el objetivo del lanzamiento: “Queremos hacer que sea más rápido y fácil para ustedes construir apps de Android de alta calidad”.

Google lanza Android Bench para evaluar modelos de IA en código

100 retos reales desde GitHub

Android Bench es un sistema de evaluación que somete a las IAs a 100 tareas extraídas de problemas y pull requests reales. Estos retos provienen de repositorios open-source en GitHub que cuentan con al menos 500 estrellas.

  • Los retos exigen desde solucionar problemas de actualización en el Android SDK hasta migrar bases de código a Jetpack Compose.
  • El 71% de las tareas están escritas en Kotlin y el 25% en Java.
  • Cada IA debe generar un parche de código funcional, el cual pasa por una verificación estricta mediante pruebas unitarias.

El proyecto cuenta con el respaldo de socios externos como JetBrains. Kirill Smelov, jefe de integraciones de IA en dicha empresa, calificó la herramienta como “exactamente el tipo de evaluación rigurosa que los desarrolladores de Android necesitan en este momento”.

Google ya publicó la metodología completa y el dataset en GitHub para que cualquier desarrollador pueda replicar los resultados. Para evitar alteraciones en los puntajes, la empresa implementó salvaguardas contra la contaminación de datos, incluyendo cadenas canary y revisión manual, garantizando que el benchmark mantenga su precisión frente a modelos de IA cada vez más avanzados.

Contenido recomendado