✨︎ Resumen (TL;DR):
- Mistral AI presentó OCR 4, un modelo que digitaliza documentos, clasifica su contenido y detecta coordenadas en 170 idiomas.
- Superó a sus rivales con un 72% de preferencia en pruebas a ciegas e independientes de más de 600 documentos.
- Se puede alojar localmente en un solo contenedor, lo que facilita el cumplimiento de privacidad de datos en América Latina.
Mistral AI presentó su nuevo modelo OCR 4, una herramienta que va más allá de la lectura de texto tradicional al extraer contenido, clasificar bloques y definir coordenadas exactas en 170 idiomas. Esta versión busca resolver las necesidades de sectores con alta carga de papeleo regulado, permitiendo el procesamiento directo dentro de servidores locales para resguardar la privacidad.
Mistral OCR 4 es un modelo de extracción y comprensión de documentos que convierte archivos PDF, Word, PowerPoint y OpenDocument en datos estructurados de alta precisión. A diferencia de las herramientas convencionales que solo entregan texto plano, este sistema genera una representación detallada que detalla la ubicación y tipo de cada elemento dentro de la página.

Estructura visual y puntajes de confianza
El nuevo modelo trabaja sobre tres ejes principales para hacer los datos digeribles por otros sistemas informáticos:
- Cajas delimitadoras (bounding boxes): Ubican las coordenadas exactas de cada bloque para resaltar datos en su contexto.
- Clasificación de bloques: Identifica si un elemento es un título, una tabla, una ecuación, una firma u otro componente estructural.
- Puntajes de confianza: Entrega una calificación por página y por palabra para que las empresas sepan cuándo se requiere de supervisión humana.
Estas capacidades alimentan de forma directa el Search Toolkit de la compañía, facilitando el desarrollo de flujos de búsqueda empresarial y arquitecturas de generación aumentada por recuperación (RAG).
Pruebas a ciegas y límites reales
Durante la fase de evaluación, Mistral organizó un panel con más de 600 documentos en 12 idiomas. Anotadores independientes compararon OCR 4 frente a sistemas competidores sin conocer la fuente del resultado, lo que arrojó una tasa de victoria del 72% a favor de la herramienta francesa. En pruebas automáticas, el modelo registró marcas de 85.20 en OlmOCRBench y 93.07 en OmniDocBench.
La empresa aclaró con honestidad que los benchmarks automatizados tienen límites técnicos, ya que suelen calificar como errores algunas diferencias menores de formato o variaciones en el orden de lectura de varias columnas. Por ello, recomiendan probar el modelo directamente en escenarios reales de producción.
“Comparamos Mistral OCR 4 contra los principales parsers de documentos con agentes sobre un conjunto de preguntas y respuestas financieras lleno de gráficas y figuras, y alcanzamos una precisión equivalente con un costo aproximadamente 8 veces menor y una latencia 17 veces menor”, detalló Aidan Donohue, ingeniero de inteligencia artificial en Rogo.
A pesar de su capacidad, la tecnológica enfatizó que OCR 4 no está diseñado para tomar decisiones autónomas en entornos críticos de seguridad, diagnósticos médicos o asesoría legal de alto riesgo.
Costos competitivos y despliegue local
El esquema de precios arranca en 4 dólares por cada mil páginas procesadas mediante su API estándar, tarifa que disminuye a 2 dólares si se utiliza la modalidad de procesamiento por lotes (Batch API). Por su parte, la capa Document AI, que entrega los resultados limpios en formato JSON sin necesidad de programar un analizador propio, tiene un costo de 5 dólares por cada mil páginas.
La mayor ventaja de OCR 4 radica en su versatilidad técnica. Al poder empaquetarse en un solo contenedor, bancos, hospitales y aseguradoras en México y el resto de Latinoamérica pueden ejecutar el software localmente en sus propios servidores. Esto evita transferir datos confidenciales a nubes de terceros, cumpliendo con las estrictas normativas regionales de protección de datos personales.
