Как установить и использовать DeepSeek-OCR: объяснение модели визуального сжатия текста

ОригиналОколо 3 мин

Как установить и использовать DeepSeek-OCR: объяснение модели визуального сжатия текста

1. Введение

DeepSeek снова удивляет.
20 октября 2025 года компания выпустила DeepSeek-OCR — новую модель с открытым исходным кодом для оптического распознавания символов (OCR).

В отличие от традиционных OCR-систем, которые читают символы последовательно, DeepSeek-OCR фактически смотрит на них.
Он использует механизм визуального сжатия токенов, сжимая документ из 1000 символов всего в 100 визуальных токенов с сохранением до 97% точности.

Видеокарта NVIDIA A100 может обрабатывать 200 000 страниц в день, что делает эту модель идеальной для оцифровки документов, архивирования и извлечения знаний на основе ИИ.
Это руководство проведёт вас через установку, локальное использование и развертывание в облаке на Hugging Face Spaces.

2. Что такое DeepSeek-OCR?

DeepSeek-OCR — это модель для извлечения текста на основе зрения, предназначенная для сканированных документов, PDF-файлов и сложных макетов.
Вместо распознавания на уровне символов она использует визуальную токенизацию для обработки целых страниц за раз, что ускоряет и повышает точность вывода.

Параметр	Описание
Размер модели	3 млрд (3 миллиарда параметров)
Входные данные	Изображения / снимки PDF
Выходные данные	Обычный текст или JSON
Длина контекста	До 8 тыс. токенов
Фреймворки	PyTorch / Transformers
Репозиторий	Hugging Face – DeepSeek-OCR
Рекомендуемая GPU	RTX 3090 / A100 (≥ 16 ГБ VRAM)

3. Ключевые особенности

Визуальное сжатие токенов – Обрабатывает целые страницы как визуальные токены.
Компактные 3 млрд параметров – Легковесная, но с высокой точностью.
Распознавание сложных макетов – Работает с многостолбцовым текстом, таблицами, заголовками, сносками.
Поддержка локального развертывания – Полностью автономная работа; идеально для конфиденциальных данных.
Многоязычность – Поддержка английского, китайского, японского, корейского языков.

4. Установка и настройка среды

Шаг 1 – Создание среды

conda create -n deepseek_ocr python=3.10
conda activate deepseek_ocr

Шаг 2 – Установка зависимостей

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
pip install transformers accelerate pillow tqdm

Шаг 3 – Загрузка модели

git lfs install
git clone https://huggingface.co/deepseek-ai/DeepSeek-OCR
cd DeepSeek-OCR

Шаг 4 – Запуск вывода

from transformers import AutoProcessor, AutoModelForVision2Seq
from PIL import Image

processor = AutoProcessor.from_pretrained("deepseek-ai/DeepSeek-OCR")
model = AutoModelForVision2Seq.from_pretrained("deepseek-ai/DeepSeek-OCR").to("cuda")

image = Image.open("sample_page.png")
inputs = processor(images=image, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=4096)
text = processor.decode(outputs[0], skip_special_tokens=True)
print(text)

Запуск:

python run_ocr.py

Шаг 5 – Пакетная обработка (опционально)

for i in *.png; do python run_ocr.py --image "$i"; done

5. Развертывание DeepSeek-OCR на Hugging Face Spaces

Хотите запустить DeepSeek-OCR прямо в браузере?
Вы можете легко разместить его на Hugging Face Spaces с помощью Gradio — без необходимости настройки локальной GPU.

Шаг 1 – Создание нового Space

Перейдите на https://huggingface.co/spaces
Нажмите «New Space» → «Gradio»
Выберите имя, например, deepseek-ocr-demo, и укажите оборудование (CPU или GPU)

Шаг 2 – Добавление app.py

import gradio as gr
from transformers import AutoProcessor, AutoModelForVision2Seq
from PIL import Image

processor = AutoProcessor.from_pretrained("deepseek-ai/DeepSeek-OCR")
model = AutoModelForVision2Seq.from_pretrained("deepseek-ai/DeepSeek-OCR")

def ocr_infer(img):
    inputs = processor(images=img, return_tensors="pt")
    outputs = model.generate(**inputs, max_new_tokens=4096)
    text = processor.decode(outputs[0], skip_special_tokens=True)
    return text

iface = gr.Interface(
    fn=ocr_infer,
    inputs=gr.Image(type="pil"),
    outputs="text",
    title="DeepSeek-OCR Demo",
    description="Загрузите изображение или сканированную страницу для извлечения текста с помощью DeepSeek-OCR."
)
iface.launch()

Шаг 3 – Отправка кода

git add app.py
git commit -m "Initial DeepSeek-OCR Demo"
git push

Ваше демо будет доступно через несколько минут по адресу:
https://huggingface.co/spaces/<ваш-username>/deepseek-ocr-demo

Шаг 4 – Встраивание в блог

Вы можете открыть демо прямо на Hugging Face:

👉 Открыть демо DeepSeek-OCR на Hugging Face

Теперь читатели могут загружать изображения и тестировать модель прямо в вашей статье 🚀

6. Сравнение моделей

Модель	Размер	Языки	Применение	Развертывание	Точность
DeepSeek-OCR	3 млрд	EN, ZH, JA, KO	OCR / PDF-парсинг	Локально + API	≈97%
PaddleOCR	—	Многоязычный	OCR	Локально	90–94%
Tesseract 5	—	Многоязычный	Базовый OCR	Локально	85–90%
GPT-4 Vision API	—	Многоязычный	Общий OCR	Облако	98% +

7. Советы для лучших результатов

Используйте изображения с разрешением ≥ 300 DPI для четкости.
Разделяйте многостраничные PDF перед обработкой.
Предварительно обрабатывайте с OpenCV (адаптивный порог и выравнивание).
Запускайте параллельно с помощью accelerate для больших пакетов.
Попробуйте демо на Hugging Face Spaces для тестирования без настройки.

8. Практический опыт

На RTX 3090 10-страничный двуязычный PDF обрабатывался за ~1,6 секунды на страницу с почти идеальной точностью.
Модель корректно распознавала таблицы, сноски и макеты страниц — превосходя большинство открытых OCR-инструментов.
Лучшее? Она работает полностью офлайн — идеально для конфиденциальных данных или корпоративного использования.

9. Рекомендация редактора

Для простых задач OCR подойдет PaddleOCR.
Но если вы работаете с научными статьями, многостолбцовыми PDF или большими наборами документов, DeepSeek-OCR предлагает идеальный баланс скорости, точности и конфиденциальности.
Достаточно легковесна для локального развертывания — но достаточно мощна для автоматизации предприятий.

10. FAQ

В1. Где можно скачать DeepSeek-OCR?

👉 В официальном репозитории Hugging Face.

В2. Какие языки поддерживаются?

Английский, китайский, японский и корейский официально; некоторые европейские языки также работают хорошо.

В3. Нужна ли GPU?

Рекомендуется GPU с ≥ 16 ГБ VRAM (RTX 3090 / A100) для эффективного вывода.

В4. Поддерживаются ли таблицы и формулы?

Да — таблицы выводятся как обычный текст и могут быть преобразованы в CSV или JSON.

В5. Есть ли API?

Да, вы можете вызывать модель через API-платформу DeepSeek, используя идентификатор deepseek-ocr.

В6. Это бесплатно?

Версия с открытым исходным кодом бесплатна для коммерческого использования. Использование API основано на токенах.

В7. Как повысить точность?

Используйте высококачественные входные данные (> 2560 px шириной), удаляйте тени и сохраняйте изображения правильно выровненными.