MAPOCR — OCR & Extracción de Datos

🏗️ Arquitectura

Cuatro componentes. Una plataforma.

MAPOCR se compone de cuatro piezas independientes que trabajan juntas: el servidor central que orquesta todo, la interfaz web para operación diaria, workers para procesamiento pesado y el cliente CLI para automatización.

⚙️

Núcleo

MAPOCR.Api

Servidor central ASP.NET Core con API REST completa. Gestiona documentos, plantillas, jobs, usuarios, workers y licencia. Swagger incluido. Soporta SQLite (local) y SQL Server (empresarial).

🖥️

Interfaz

MAPOCR.WebUI

Aplicación web Blazor Server con interfaz moderna. Sube documentos, revisa resultados, aplica plantillas, consulta el dashboard de métricas y administra la plataforma desde el navegador.

⚡

Procesamiento

MAPOCR.Worker

Servicio Windows para procesamiento en segundo plano. Se conecta a la API con API Key y toma jobs de la cola automáticamente. Despliega uno o varios workers en distintas máquinas para escalar la capacidad.

⌨️

Automatización

MAPOCR.CLI

Cliente de línea de comandos para integraciones y pipelines. Envía documentos, consulta resultados, aplica plantillas y descarga hOCR directamente desde terminal o scripts de automatización.

🧠 Motores de Reconocimiento

Elige el motor según tu necesidad.

Cada documento es diferente. MAPOCR ofrece dos motores de reconocimiento con perfiles distintos de velocidad y precisión. Puedes cambiar de motor en cada procesamiento sin tocar configuración.

🆓 Offline · Sin costo

Tesseract OCR

Motor de código abierto, 100% local, sin dependencias externas. Ideal para grandes volúmenes de documentos con buena calidad de imagen. Cero costo por página, sin límite de uso.

✓Funciona completamente offline, sin acceso a internet
✓Múltiples idiomas configurables (español, inglés y más)
✓Modos de segmentación PSM configurables por documento
✓Pool de engines con gobernanza de CPU al 90% del hardware
✓Sin costo adicional por página. Procesamiento ilimitado

🚀 Deep Learning · Alta precisión

PaddleOCR

Motor de reconocimiento basado en inteligencia artificial (PP-OCRv5). Supera a Tesseract en documentos con diseños complejos, texto inclinado, múltiples columnas o baja calidad de imagen. 100% local.

✓Modelos PP-OCRv5 con reconocimiento de texto de alta precisión
✓Mejor rendimiento en documentos escaneados con ruido o distorsión
✓Soporte para texto en múltiples orientaciones e inclinaciones
✓Pool de engines con paralelismo real por página en modo Worker
✓Descarga automática de modelos al iniciar. Sin instalación manual

📊 Extracción de Tablas

Las tablas ya no son un obstáculo.

MAPOCR incluye capacidad de análisis estructural de documentos para detectar y extraer tablas completas con su estructura de filas y columnas intacta.

📋

Detección y extracción automática de tablas con PP-Structure

Al activar el análisis de estructura en un documento, MAPOCR utiliza los modelos PP-Structure de PaddleOCR para detectar regiones de tabla en la página, identificar la cuadrícula de filas y columnas, y extraer el contenido celda por celda. El resultado queda disponible en el hOCR del documento para ser consumido por las plantillas de extracción o consultado directamente desde la API.

Detección automática de regiones Estructura de filas y columnas Contenido por celda Compatible con plantillas Sin configuración previa

🔄 Pipeline de Procesamiento

Del archivo al dato estructurado.

Cada documento pasa por un pipeline inteligente que garantiza calidad, elimina duplicados y almacena el resultado listo para ser consultado cuantas veces se necesite.

1

Ingreso

API, WebUI, CLI o Worker. PDF, PNG, JPG o TIFF.

→

2

Hash SHA-256

Si el documento ya existe, reutiliza el OCR almacenado. Cero reprocesamiento.

→

3

Preprocesamiento

Corrección de imagen, rotación automática, binarización según perfil.

→

4

OCR + Tablas

Motor seleccionado. Análisis estructural opcional para tablas.

→

5

Extracción

Plantilla configurada o extracción ad-hoc. Campos, confianza, motor, tiempo.

✨ Capacidades Principales

Todo lo que necesitas para documentos empresariales.

Desde la ingesta del archivo hasta el dato estructurado en tu sistema, MAPOCR cubre cada paso del proceso documental.

♻️

Reutilización de OCR

Mismo documento = mismo hash. MAPOCR detecta el duplicado automáticamente y evita reprocesar. Aplica nuevas plantillas de extracción sobre el resultado almacenado sin ningún costo adicional.

📐

Plantillas de extracción

Define campos con nombre, tipo y reglas de validación. Una vez guardada, la plantilla se puede aplicar a cualquier documento procesado, hoy o en el futuro, sin reprocesar el OCR.

🖼️

Perfiles de preprocesamiento

Ajusta corrección de contraste, binarización, escala de grises, nitidez y rotación automática por perfil. Aplica distintos perfiles a distintos tipos de documento para maximizar la calidad del OCR.

📋

Formatos soportados

PDF multipágina, PNG, JPG y TIFF. Los PDFs se convierten página por página con DPI configurable para garantizar la mejor relación calidad-velocidad.

🔗

Referencias externas

Vincula cada documento con su ID en tu sistema GED, ERP o gestor documental. Consulta el resultado de OCR usando los identificadores de tu propio sistema sin modificar nada.

📊

Dashboard de métricas

Documentos por día, páginas procesadas, jobs en cola, motores más usados, tiempos promedio y documentos más grandes. Visibilidad completa sobre el estado de la plataforma.

⚡

Cola asíncrona inteligente

Los documentos entran a la cola y los workers los toman de forma automática. El semáforo de concurrencia garantiza que nunca se sobrecarguen los recursos del servidor.

🌐

API REST + Swagger

Todos los endpoints están documentados con Swagger interactivo. Cualquier sistema externo puede integrarse con MAPOCR en minutos usando las rutas de la API.

🖥️ Workers Distribuidos

Escala el procesamiento sin límite de máquinas.

Cuando el volumen de documentos crece, los Workers de MAPOCR te permiten distribuir el procesamiento en varias máquinas sin cambiar una línea de configuración.

🔑

Autenticación por API Key

Cada worker se registra en la API con su propia API Key. Si un worker se cae, los demás siguen operando. La API Key se puede revocar en cualquier momento desde la administración.

💓

Heartbeat automático

Cada worker reporta su estado (IDLE / BUSY), jobs activos y configuración en tiempo real. El servidor sabe exactamente qué está procesando cada máquina en todo momento.

⚙️

Configuración en caliente

Cambia el número de jobs concurrentes de un worker desde la interfaz web. El cambio se aplica en el próximo heartbeat sin reiniciar el servicio ni interrumpir los jobs activos.

🛡️

Graceful shutdown

Al detener el servicio, el worker espera hasta 5 minutos para que los jobs en vuelo terminen correctamente. Nunca se pierde un documento a mitad del procesamiento.

🔒 Seguridad

Construido para entornos corporativos.

MAPOCR implementa seguridad por capas: desde el cifrado de datos en reposo hasta el control de acceso basado en roles para cada funcionalidad.

🎫

Autenticación JWT

Tokens de sesión de corta duración para usuarios en API y WebUI. Refresh token automático para sesiones activas sin interrumpir al usuario.

👥

Roles y permisos (RBAC)

Control granular por funcionalidad: quién puede subir documentos, consultar resultados, gestionar plantillas, administrar usuarios o ver la licencia.

🔑

API Keys para Workers

Cada worker tiene su propia clave de autenticación independiente. Revocable en cualquier momento desde el panel de administración sin afectar a otros workers.

🏷️

Licencia RSA por máquina

La licencia está firmada con RSA-SHA256 y vinculada al hardware del servidor. No es transferible ni puede ser copiada a otra máquina sin nueva emisión.

🔐

Cifrado DPAPI

Las credenciales de base de datos se cifran con DPAPI LocalMachine en disco. Solo los procesos de la misma máquina física pueden descifrarlas. Sin contraseñas en texto plano.

☁️

100% On-Premise

Todos los datos, documentos y resultados permanecen dentro de tu infraestructura. MAPOCR no envía ningún documento a servidores externos salvo que uses GPT-4o como motor.

¿Listo para ver MAPOCR en acción?

Escríbeme por WhatsApp y coordinamos una demo personalizada con tus propios documentos. Sin costo, sin compromiso.

Solicitar demo — +57 318 778 7454 ← Volver al inicio

MAPOCRProcesa una vez.Extrae infinitas veces.