Cómo Instalar y Usar DeepSeek-OCR: Un Modelo de Compresión Visual de Texto Explicado

OriginalAlrededor de 4 min

Cómo Instalar y Usar DeepSeek-OCR: Un Modelo de Compresión Visual de Texto Explicado

1. Introducción

DeepSeek lo ha vuelto a hacer.
El 20 de octubre de 2026, la compañía lanzó DeepSeek-OCR, un nuevo modelo de código abierto para Reconocimiento Óptico de Caracteres (OCR).

A diferencia de los sistemas OCR tradicionales que leen caracteres secuencialmente, DeepSeek-OCR realmente los observa.
Introduce un mecanismo de compresión de tokens visuales — comprimiendo un documento de 1,000 caracteres en solo 100 tokens visuales mientras mantiene hasta un 97% de precisión.

Una NVIDIA A100 puede procesar 200,000 páginas por día, lo que hace que este modelo sea ideal para digitalización de documentos, archivado y extracción de conocimiento basada en IA.
Esta guía te llevará paso a paso por la instalación, uso local y despliegue en la nube en Hugging Face Spaces.

2. ¿Qué es DeepSeek-OCR?

DeepSeek-OCR es un modelo basado en visión para extracción de texto de documentos escaneados, PDFs y diseños complejos.
En lugar de reconocimiento a nivel de caracteres, utiliza tokenización visual para procesar páginas completas de una vez, permitiendo una inferencia más rápida y precisa.

Parámetro	Descripción
Tamaño del Modelo	3 B (3 mil millones de parámetros)
Entrada	Imágenes / capturas de PDF
Salida	Texto plano o JSON
Longitud de Contexto	Hasta 8 K tokens
Frameworks	PyTorch / Transformers
Repositorio	Hugging Face – DeepSeek-OCR
GPU Recomendada	RTX 3090 / A100 (≥ 16 GB VRAM)

3. Características Principales

Compresión de Tokens Visuales – Procesa páginas completas como tokens de imagen.
Compacto con 3B Parámetros – Ligero pero de alta precisión.
Reconocimiento de Diseños Complejos – Maneja texto en múltiples columnas, tablas, encabezados, notas al pie.
Soporte para Despliegue Local – Funciona completamente offline; ideal para datos confidenciales.
Multilingüe – Soporta inglés, chino, japonés y coreano.

4. Instalación y Configuración del Entorno

Paso 1 – Crear el Entorno

conda create -n deepseek_ocr python=3.10
conda activate deepseek_ocr

Paso 2 – Instalar Dependencias

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
pip install transformers accelerate pillow tqdm

Paso 3 – Descargar el Modelo

git lfs install
git clone https://huggingface.co/deepseek-ai/DeepSeek-OCR
cd DeepSeek-OCR

Paso 4 – Ejecutar Inferencia

from transformers import AutoProcessor, AutoModelForVision2Seq
from PIL import Image

processor = AutoProcessor.from_pretrained("deepseek-ai/DeepSeek-OCR")
model = AutoModelForVision2Seq.from_pretrained("deepseek-ai/DeepSeek-OCR").to("cuda")

image = Image.open("sample_page.png")
inputs = processor(images=image, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=4096)
text = processor.decode(outputs[0], skip_special_tokens=True)
print(text)

Ejecútalo:

python run_ocr.py

Paso 5 – Procesamiento por Lotes (Opcional)

for i in *.png; do python run_ocr.py --image "$i"; done

5. Desplegar DeepSeek-OCR en Hugging Face Spaces

¿Quieres ejecutar DeepSeek-OCR directamente en tu navegador?
Puedes alojarlo fácilmente en Hugging Face Spaces usando Gradio — sin necesidad de configurar una GPU local.

Paso 1 – Crear un Nuevo Space

Visita https://huggingface.co/spaces
Haz clic en “New Space” → “Gradio”
Elige un nombre como deepseek-ocr-demo y selecciona tu hardware (CPU o GPU)

Paso 2 – Añadir app.py

import gradio as gr
from transformers import AutoProcessor, AutoModelForVision2Seq
from PIL import Image

processor = AutoProcessor.from_pretrained("deepseek-ai/DeepSeek-OCR")
model = AutoModelForVision2Seq.from_pretrained("deepseek-ai/DeepSeek-OCR")

def ocr_infer(img):
    inputs = processor(images=img, return_tensors="pt")
    outputs = model.generate(**inputs, max_new_tokens=4096)
    text = processor.decode(outputs[0], skip_special_tokens=True)
    return text

iface = gr.Interface(
    fn=ocr_infer,
    inputs=gr.Image(type="pil"),
    outputs="text",
    title="Demo de DeepSeek-OCR",
    description="Sube una imagen o página escaneada para extraer texto usando DeepSeek-OCR."
)
iface.launch()

Paso 3 – Subir tu Código

git add app.py
git commit -m "Demo Inicial de DeepSeek-OCR"
git push

Tu demo estará disponible en minutos en:
https://huggingface.co/spaces/<tu-usuario>/deepseek-ocr-demo

Paso 4 – Incrustar en tu Blog

Puedes abrir la demo directamente en Hugging Face:

👉 Abrir Demo de DeepSeek-OCR en Hugging Face

Ahora los lectores pueden subir imágenes y probar el modelo directamente dentro de tu artículo 🚀

6. Comparación de Modelos

Modelo	Tamaño	Idiomas	Caso de Uso	Despliegue	Precisión
DeepSeek-OCR	3 B	EN, ZH, JA, KO	OCR / Análisis de PDF	Local + API	≈97%
PaddleOCR	—	Multilingüe	OCR	Local	90–94%
Tesseract 5	—	Multilingüe	OCR Básico	Local	85–90%
GPT-4 Vision API	—	Multilingüe	OCR General	Nube	98% +

7. Consejos para Mejores Resultados

Usa imágenes con ≥ 300 DPI para mayor claridad.
Divide PDFs de múltiples páginas antes de procesarlos.
Preprocesa con OpenCV (umbral adaptativo y corrección de inclinación).
Ejecuta en paralelo usando accelerate para lotes grandes.
Prueba la demo en Hugging Face Spaces para pruebas sin configuración.

8. Experiencia Práctica

En una RTX 3090, un PDF bilingüe de 10 páginas tomó ~1.6 segundos por página con una precisión casi perfecta.
El modelo capturó tablas, notas al pie y diseños de página correctamente — superando a la mayoría de las herramientas OCR de código abierto.
¿La mejor parte? Funciona completamente offline — ideal para datos sensibles o uso empresarial.

9. Recomendación del Editor

Para tareas OCR simples, PaddleOCR es suficiente.
Pero si manejas artículos de investigación, PDFs con múltiples columnas o grandes conjuntos de documentos, DeepSeek-OCR ofrece el equilibrio perfecto entre velocidad, precisión y privacidad.
Lo suficientemente ligero para despliegue local — pero lo suficientemente potente para automatización empresarial.

10. Preguntas Frecuentes

P1. ¿Dónde puedo descargar DeepSeek-OCR?

👉 Desde el repositorio oficial de Hugging Face.

P2. ¿Qué idiomas soporta?

Inglés, chino, japonés y coreano oficialmente; algunos idiomas europeos también funcionan bien.

P3. ¿Se requiere una GPU?

Se recomienda una GPU con ≥ 16 GB VRAM (RTX 3090 / A100) para una inferencia eficiente.

P4. ¿Soporta tablas y fórmulas?

Sí — las tablas se exportan como texto plano y pueden convertirse a CSV o JSON.

P5. ¿Hay una API?

Sí, puedes llamarlo usando el ID del modelo deepseek-ocr a través de la plataforma API de DeepSeek.

P6. ¿Es gratuito?

La versión de código abierto es gratuita para uso comercial. El uso de la API es basado en tokens.

P7. ¿Cómo puedo mejorar la precisión?

Usa entradas de alta resolución (> 2560 px de ancho), elimina sombras y mantén las imágenes alineadas correctamente.