如何安装和使用 DeepSeek-OCR：视觉文本压缩模型解析

原创大约 5 分钟

如何安装和使用 DeepSeek-OCR：视觉文本压缩模型解析

1. 介绍

DeepSeek 又一次做到了。
在 2026 年 10 月 20 日，该公司发布了 DeepSeek-OCR，一个全新的开源光学字符识别（OCR）模型。

与传统的 OCR 系统按顺序读取字符不同，DeepSeek-OCR 实际上是观察字符。
它引入了一种 视觉令牌压缩机制 —— 将 1,000 字符的文档压缩为仅 100 个视觉令牌，同时保持 高达 97% 的准确性。

一台 NVIDIA A100 每天可以处理 200,000 页，使该模型非常适合文档数字化、归档和基于 AI 的知识提取。
本指南将引导您完成 安装、本地使用和在 Hugging Face Spaces 上的云部署。

2. 什么是 DeepSeek-OCR？

DeepSeek-OCR 是一个基于视觉的文本提取模型，适用于扫描文档、PDF 和复杂布局。
它不是进行字符级识别，而是使用 视觉令牌化 一次性处理整个页面，以实现更快和更准确的推理。

参数	描述
模型大小	3 B (30 亿参数)
输入	图像 / PDF 快照
输出	纯文本或 JSON
上下文长度	最多 8 K 令牌
框架	PyTorch / Transformers
代码库	Hugging Face – DeepSeek-OCR
推荐 GPU	RTX 3090 / A100 (≥ 16 GB VRAM)

3. 主要亮点

视觉令牌压缩 – 将整个页面作为图像令牌处理。
紧凑的 3B 参数 – 轻量级但高准确性。
复杂布局识别 – 处理多列文本、表格、标题、脚注。
本地部署支持 – 完全离线运行；适合机密数据。
多语言支持 – 支持英语、中文、日语、韩语。

4. 安装和环境设置

步骤 1 – 创建环境

conda create -n deepseek_ocr python=3.10
conda activate deepseek_ocr

步骤 2 – 安装依赖

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
pip install transformers accelerate pillow tqdm

步骤 3 – 下载模型

git lfs install
git clone https://huggingface.co/deepseek-ai/DeepSeek-OCR
cd DeepSeek-OCR

步骤 4 – 运行推理

from transformers import AutoProcessor, AutoModelForVision2Seq
from PIL import Image

processor = AutoProcessor.from_pretrained("deepseek-ai/DeepSeek-OCR")
model = AutoModelForVision2Seq.from_pretrained("deepseek-ai/DeepSeek-OCR").to("cuda")

image = Image.open("sample_page.png")
inputs = processor(images=image, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=4096)
text = processor.decode(outputs[0], skip_special_tokens=True)
print(text)

运行它：

python run_ocr.py

步骤 5 – 批处理（可选）

for i in *.png; do python run_ocr.py --image "$i"; done

5. 在 Hugging Face Spaces 上部署 DeepSeek-OCR

想要直接在浏览器中运行 DeepSeek-OCR 吗？
您可以使用 Gradio 轻松地在 Hugging Face Spaces 上托管它——无需本地 GPU 设置。

步骤 1 – 创建新空间

访问 https://huggingface.co/spaces
点击 “New Space” → “Gradio”
选择一个名称，如 deepseek-ocr-demo，并选择您的硬件（CPU 或 GPU）

步骤 2 – 添加 app.py

import gradio as gr
from transformers import AutoProcessor, AutoModelForVision2Seq
from PIL import Image

processor = AutoProcessor.from_pretrained("deepseek-ai/DeepSeek-OCR")
model = AutoModelForVision2Seq.from_pretrained("deepseek-ai/DeepSeek-OCR")

def ocr_infer(img):
    inputs = processor(images=img, return_tensors="pt")
    outputs = model.generate(**inputs, max_new_tokens=4096)
    text = processor.decode(outputs[0], skip_special_tokens=True)
    return text

iface = gr.Interface(
    fn=ocr_infer,
    inputs=gr.Image(type="pil"),
    outputs="text",
    title="DeepSeek-OCR 演示",
    description="上传图像或扫描页面以使用 DeepSeek-OCR 提取文本。"
)
iface.launch()

步骤 3 – 推送您的代码

git add app.py
git commit -m "初始 DeepSeek-OCR 演示"
git push

您的演示将在几分钟内上线：
https://huggingface.co/spaces/<your-username>/deepseek-ocr-demo

步骤 4 – 嵌入到您的博客

您可以直接在 Hugging Face 上打开实时演示：

👉 在 Hugging Face 上打开 DeepSeek-OCR 演示

现在读者可以上传图像并直接在您的文章中测试模型 🚀

6. 模型比较

模型	大小	语言	用例	部署	准确性
DeepSeek-OCR	3 B	EN, ZH, JA, KO	OCR / PDF 解析	本地 + API	≈97%
PaddleOCR	—	多语言	OCR	本地	90–94%
Tesseract 5	—	多语言	基本 OCR	本地	85–90%
GPT-4 Vision API	—	多语言	通用 OCR	云	98% +

7. 提高结果的技巧

使用 ≥ 300 DPI 的图像以确保清晰度。
在处理之前拆分多页 PDF。
使用 OpenCV 进行预处理（自适应阈值和去倾斜）。
使用 accelerate 并行运行以处理大批量。
尝试 Hugging Face Spaces 演示进行零设置测试。

Q2. 支持哪些语言？

官方支持英语、中文、日语和韩语；一些欧洲语言也能很好地工作。

Q3. 需要 GPU 吗？

建议使用 ≥ 16 GB VRAM 的 GPU（RTX 3090 / A100）以实现高效推理。

Q4. 是否支持表格和公式？

是的——表格以纯文本输出，可以转换为 CSV 或 JSON。

Q5. 有 API 吗？

是的，您可以通过 DeepSeek 的 API 平台使用模型 ID deepseek-ocr 进行调用。

Q6. 使用是免费的吗？

开源版本可免费用于商业用途。API 使用是基于令牌的。

Q7. 我该如何提高准确性？

使用高分辨率输入（> 2560 px 宽度），去除阴影，并保持图像正确对齐。

如何安装和使用 DeepSeek-OCR：视觉文本压缩模型解析

如何安装和使用 DeepSeek-OCR：视觉文本压缩模型解析

1. 介绍

2. 什么是 DeepSeek-OCR？

3. 主要亮点

4. 安装和环境设置

步骤 1 – 创建环境

步骤 2 – 安装依赖

步骤 3 – 下载模型

步骤 4 – 运行推理

步骤 5 – 批处理（可选）

5. 在 Hugging Face Spaces 上部署 DeepSeek-OCR

步骤 1 – 创建新空间

步骤 2 – 添加 app.py

步骤 3 – 推送您的代码

步骤 4 – 嵌入到您的博客

6. 模型比较

7. 提高结果的技巧

8. 实践经验

9. 编辑推荐

10. 常见问题解答