Как установить и использовать DeepSeek-OCR: объяснение модели визуального сжатия текста
Как установить и использовать DeepSeek-OCR: объяснение модели визуального сжатия текста
1. Введение
DeepSeek снова удивляет.
20 октября 2025 года компания выпустила DeepSeek-OCR — новую модель с открытым исходным кодом для оптического распознавания символов (OCR).
В отличие от традиционных OCR-систем, которые читают символы последовательно, DeepSeek-OCR фактически смотрит на них.
 Он использует механизм визуального сжатия токенов, сжимая документ из 1000 символов всего в 100 визуальных токенов с сохранением до 97% точности.
Видеокарта NVIDIA A100 может обрабатывать 200 000 страниц в день, что делает эту модель идеальной для оцифровки документов, архивирования и извлечения знаний на основе ИИ.
 Это руководство проведёт вас через установку, локальное использование и развертывание в облаке на Hugging Face Spaces.
2. Что такое DeepSeek-OCR?
DeepSeek-OCR — это модель для извлечения текста на основе зрения, предназначенная для сканированных документов, PDF-файлов и сложных макетов.
 Вместо распознавания на уровне символов она использует визуальную токенизацию для обработки целых страниц за раз, что ускоряет и повышает точность вывода.
| Параметр | Описание | 
|---|---|
| Размер модели | 3 млрд (3 миллиарда параметров) | 
| Входные данные | Изображения / снимки PDF | 
| Выходные данные | Обычный текст или JSON | 
| Длина контекста | До 8 тыс. токенов | 
| Фреймворки | PyTorch / Transformers | 
| Репозиторий | Hugging Face – DeepSeek-OCR | 
| Рекомендуемая GPU | RTX 3090 / A100 (≥ 16 ГБ VRAM) | 
3. Ключевые особенности
- Визуальное сжатие токенов – Обрабатывает целые страницы как визуальные токены.
- Компактные 3 млрд параметров – Легковесная, но с высокой точностью.
- Распознавание сложных макетов – Работает с многостолбцовым текстом, таблицами, заголовками, сносками.
- Поддержка локального развертывания – Полностью автономная работа; идеально для конфиденциальных данных.
- Многоязычность – Поддержка английского, китайского, японского, корейского языков.
4. Установка и настройка среды
Шаг 1 – Создание среды
conda create -n deepseek_ocr python=3.10
conda activate deepseek_ocrШаг 2 – Установка зависимостей
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
pip install transformers accelerate pillow tqdmШаг 3 – Загрузка модели
git lfs install
git clone https://huggingface.co/deepseek-ai/DeepSeek-OCR
cd DeepSeek-OCRШаг 4 – Запуск вывода
from transformers import AutoProcessor, AutoModelForVision2Seq
from PIL import Image
processor = AutoProcessor.from_pretrained("deepseek-ai/DeepSeek-OCR")
model = AutoModelForVision2Seq.from_pretrained("deepseek-ai/DeepSeek-OCR").to("cuda")
image = Image.open("sample_page.png")
inputs = processor(images=image, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=4096)
text = processor.decode(outputs[0], skip_special_tokens=True)
print(text)Запуск:
python run_ocr.pyШаг 5 – Пакетная обработка (опционально)
for i in *.png; do python run_ocr.py --image "$i"; done5. Развертывание DeepSeek-OCR на Hugging Face Spaces
Хотите запустить DeepSeek-OCR прямо в браузере?
 Вы можете легко разместить его на Hugging Face Spaces с помощью Gradio — без необходимости настройки локальной GPU.
Шаг 1 – Создание нового Space
- Перейдите на https://huggingface.co/spaces 
- Нажмите «New Space» → «Gradio» 
- Выберите имя, например, deepseek-ocr-demo, и укажите оборудование (CPU или GPU) 
Шаг 2 – Добавление app.py
import gradio as gr
from transformers import AutoProcessor, AutoModelForVision2Seq
from PIL import Image
processor = AutoProcessor.from_pretrained("deepseek-ai/DeepSeek-OCR")
model = AutoModelForVision2Seq.from_pretrained("deepseek-ai/DeepSeek-OCR")
def ocr_infer(img):
    inputs = processor(images=img, return_tensors="pt")
    outputs = model.generate(**inputs, max_new_tokens=4096)
    text = processor.decode(outputs[0], skip_special_tokens=True)
    return text
iface = gr.Interface(
    fn=ocr_infer,
    inputs=gr.Image(type="pil"),
    outputs="text",
    title="DeepSeek-OCR Demo",
    description="Загрузите изображение или сканированную страницу для извлечения текста с помощью DeepSeek-OCR."
)
iface.launch()Шаг 3 – Отправка кода
git add app.py
git commit -m "Initial DeepSeek-OCR Demo"
git pushВаше демо будет доступно через несколько минут по адресу:https://huggingface.co/spaces/<ваш-username>/deepseek-ocr-demo
Шаг 4 – Встраивание в блог
Вы можете открыть демо прямо на Hugging Face:
👉 Открыть демо DeepSeek-OCR на Hugging Face
Теперь читатели могут загружать изображения и тестировать модель прямо в вашей статье 🚀
6. Сравнение моделей
| Модель | Размер | Языки | Применение | Развертывание | Точность | 
|---|---|---|---|---|---|
| DeepSeek-OCR | 3 млрд | EN, ZH, JA, KO | OCR / PDF-парсинг | Локально + API | ≈97% | 
| PaddleOCR | — | Многоязычный | OCR | Локально | 90–94% | 
| Tesseract 5 | — | Многоязычный | Базовый OCR | Локально | 85–90% | 
| GPT-4 Vision API | — | Многоязычный | Общий OCR | Облако | 98% + | 
7. Советы для лучших результатов
- Используйте изображения с разрешением ≥ 300 DPI для четкости. 
- Разделяйте многостраничные PDF перед обработкой. 
- Предварительно обрабатывайте с OpenCV (адаптивный порог и выравнивание). 
- Запускайте параллельно с помощью accelerate для больших пакетов. 
- Попробуйте демо на Hugging Face Spaces для тестирования без настройки. 
8. Практический опыт
На RTX 3090 10-страничный двуязычный PDF обрабатывался за ~1,6 секунды на страницу с почти идеальной точностью.
 Модель корректно распознавала таблицы, сноски и макеты страниц — превосходя большинство открытых OCR-инструментов.
 Лучшее? Она работает полностью офлайн — идеально для конфиденциальных данных или корпоративного использования.
9. Рекомендация редактора
Для простых задач OCR подойдет PaddleOCR.
 Но если вы работаете с научными статьями, многостолбцовыми PDF или большими наборами документов, DeepSeek-OCR предлагает идеальный баланс скорости, точности и конфиденциальности.
 Достаточно легковесна для локального развертывания — но достаточно мощна для автоматизации предприятий.
10. FAQ
В1. Где можно скачать DeepSeek-OCR?
👉 В официальном репозитории Hugging Face.
В2. Какие языки поддерживаются?
Английский, китайский, японский и корейский официально; некоторые европейские языки также работают хорошо.
В3. Нужна ли GPU?
Рекомендуется GPU с ≥ 16 ГБ VRAM (RTX 3090 / A100) для эффективного вывода.
В4. Поддерживаются ли таблицы и формулы?
Да — таблицы выводятся как обычный текст и могут быть преобразованы в CSV или JSON.
В5. Есть ли API?
Да, вы можете вызывать модель через API-платформу DeepSeek, используя идентификатор deepseek-ocr.
В6. Это бесплатно?
Версия с открытым исходным кодом бесплатна для коммерческого использования. Использование API основано на токенах.
В7. Как повысить точность?
Используйте высококачественные входные данные (> 2560 px шириной), удаляйте тени и сохраняйте изображения правильно выровненными.