Cómo Instalar y Usar DeepSeek-OCR: Un Modelo de Compresión Visual de Texto Explicado
Cómo Instalar y Usar DeepSeek-OCR: Un Modelo de Compresión Visual de Texto Explicado
1. Introducción
DeepSeek lo ha vuelto a hacer.
El 20 de octubre de 2025, la compañía lanzó DeepSeek-OCR, un nuevo modelo de código abierto para Reconocimiento Óptico de Caracteres (OCR).
A diferencia de los sistemas OCR tradicionales que leen caracteres secuencialmente, DeepSeek-OCR realmente los observa.
Introduce un mecanismo de compresión de tokens visuales — comprimiendo un documento de 1,000 caracteres en solo 100 tokens visuales mientras mantiene hasta un 97% de precisión.
Una NVIDIA A100 puede procesar 200,000 páginas por día, lo que hace que este modelo sea ideal para digitalización de documentos, archivado y extracción de conocimiento basada en IA.
Esta guía te llevará paso a paso por la instalación, uso local y despliegue en la nube en Hugging Face Spaces.
2. ¿Qué es DeepSeek-OCR?
DeepSeek-OCR es un modelo basado en visión para extracción de texto de documentos escaneados, PDFs y diseños complejos.
En lugar de reconocimiento a nivel de caracteres, utiliza tokenización visual para procesar páginas completas de una vez, permitiendo una inferencia más rápida y precisa.
| Parámetro | Descripción |
|---|---|
| Tamaño del Modelo | 3 B (3 mil millones de parámetros) |
| Entrada | Imágenes / capturas de PDF |
| Salida | Texto plano o JSON |
| Longitud de Contexto | Hasta 8 K tokens |
| Frameworks | PyTorch / Transformers |
| Repositorio | Hugging Face – DeepSeek-OCR |
| GPU Recomendada | RTX 3090 / A100 (≥ 16 GB VRAM) |
3. Características Principales
- Compresión de Tokens Visuales – Procesa páginas completas como tokens de imagen.
- Compacto con 3B Parámetros – Ligero pero de alta precisión.
- Reconocimiento de Diseños Complejos – Maneja texto en múltiples columnas, tablas, encabezados, notas al pie.
- Soporte para Despliegue Local – Funciona completamente offline; ideal para datos confidenciales.
- Multilingüe – Soporta inglés, chino, japonés y coreano.
4. Instalación y Configuración del Entorno
Paso 1 – Crear el Entorno
conda create -n deepseek_ocr python=3.10
conda activate deepseek_ocrPaso 2 – Instalar Dependencias
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
pip install transformers accelerate pillow tqdmPaso 3 – Descargar el Modelo
git lfs install
git clone https://huggingface.co/deepseek-ai/DeepSeek-OCR
cd DeepSeek-OCRPaso 4 – Ejecutar Inferencia
from transformers import AutoProcessor, AutoModelForVision2Seq
from PIL import Image
processor = AutoProcessor.from_pretrained("deepseek-ai/DeepSeek-OCR")
model = AutoModelForVision2Seq.from_pretrained("deepseek-ai/DeepSeek-OCR").to("cuda")
image = Image.open("sample_page.png")
inputs = processor(images=image, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=4096)
text = processor.decode(outputs[0], skip_special_tokens=True)
print(text)Ejecútalo:
python run_ocr.pyPaso 5 – Procesamiento por Lotes (Opcional)
for i in *.png; do python run_ocr.py --image "$i"; done5. Desplegar DeepSeek-OCR en Hugging Face Spaces
¿Quieres ejecutar DeepSeek-OCR directamente en tu navegador?
Puedes alojarlo fácilmente en Hugging Face Spaces usando Gradio — sin necesidad de configurar una GPU local.
Paso 1 – Crear un Nuevo Space
Haz clic en “New Space” → “Gradio”
Elige un nombre como deepseek-ocr-demo y selecciona tu hardware (CPU o GPU)
Paso 2 – Añadir app.py
import gradio as gr
from transformers import AutoProcessor, AutoModelForVision2Seq
from PIL import Image
processor = AutoProcessor.from_pretrained("deepseek-ai/DeepSeek-OCR")
model = AutoModelForVision2Seq.from_pretrained("deepseek-ai/DeepSeek-OCR")
def ocr_infer(img):
inputs = processor(images=img, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=4096)
text = processor.decode(outputs[0], skip_special_tokens=True)
return text
iface = gr.Interface(
fn=ocr_infer,
inputs=gr.Image(type="pil"),
outputs="text",
title="Demo de DeepSeek-OCR",
description="Sube una imagen o página escaneada para extraer texto usando DeepSeek-OCR."
)
iface.launch()Paso 3 – Subir tu Código
git add app.py
git commit -m "Demo Inicial de DeepSeek-OCR"
git pushTu demo estará disponible en minutos en:https://huggingface.co/spaces/<tu-usuario>/deepseek-ocr-demo
Paso 4 – Incrustar en tu Blog
Puedes abrir la demo directamente en Hugging Face:
👉 Abrir Demo de DeepSeek-OCR en Hugging Face
Ahora los lectores pueden subir imágenes y probar el modelo directamente dentro de tu artículo 🚀
6. Comparación de Modelos
| Modelo | Tamaño | Idiomas | Caso de Uso | Despliegue | Precisión |
|---|---|---|---|---|---|
| DeepSeek-OCR | 3 B | EN, ZH, JA, KO | OCR / Análisis de PDF | Local + API | ≈97% |
| PaddleOCR | — | Multilingüe | OCR | Local | 90–94% |
| Tesseract 5 | — | Multilingüe | OCR Básico | Local | 85–90% |
| GPT-4 Vision API | — | Multilingüe | OCR General | Nube | 98% + |
7. Consejos para Mejores Resultados
Usa imágenes con ≥ 300 DPI para mayor claridad.
Divide PDFs de múltiples páginas antes de procesarlos.
Preprocesa con OpenCV (umbral adaptativo y corrección de inclinación).
Ejecuta en paralelo usando accelerate para lotes grandes.
Prueba la demo en Hugging Face Spaces para pruebas sin configuración.
8. Experiencia Práctica
En una RTX 3090, un PDF bilingüe de 10 páginas tomó ~1.6 segundos por página con una precisión casi perfecta.
El modelo capturó tablas, notas al pie y diseños de página correctamente — superando a la mayoría de las herramientas OCR de código abierto.
¿La mejor parte? Funciona completamente offline — ideal para datos sensibles o uso empresarial.
9. Recomendación del Editor
Para tareas OCR simples, PaddleOCR es suficiente.
Pero si manejas artículos de investigación, PDFs con múltiples columnas o grandes conjuntos de documentos, DeepSeek-OCR ofrece el equilibrio perfecto entre velocidad, precisión y privacidad.
Lo suficientemente ligero para despliegue local — pero lo suficientemente potente para automatización empresarial.
10. Preguntas Frecuentes
P1. ¿Dónde puedo descargar DeepSeek-OCR?
👉 Desde el repositorio oficial de Hugging Face.
P2. ¿Qué idiomas soporta?
Inglés, chino, japonés y coreano oficialmente; algunos idiomas europeos también funcionan bien.
P3. ¿Se requiere una GPU?
Se recomienda una GPU con ≥ 16 GB VRAM (RTX 3090 / A100) para una inferencia eficiente.
P4. ¿Soporta tablas y fórmulas?
Sí — las tablas se exportan como texto plano y pueden convertirse a CSV o JSON.
P5. ¿Hay una API?
Sí, puedes llamarlo usando el ID del modelo deepseek-ocr a través de la plataforma API de DeepSeek.
P6. ¿Es gratuito?
La versión de código abierto es gratuita para uso comercial. El uso de la API es basado en tokens.
P7. ¿Cómo puedo mejorar la precisión?
Usa entradas de alta resolución (> 2560 px de ancho), elimina sombras y mantén las imágenes alineadas correctamente.