如何安裝與使用 DeepSeek-OCR：視覺文字壓縮模型詳解

原創大约 5 分鐘

如何安裝與使用 DeepSeek-OCR：視覺文字壓縮模型詳解

1. 簡介

DeepSeek 再次突破極限。
在 2025 年 10 月 20 日，該公司發布了 DeepSeek-OCR，這是一款全新的開源光學字元辨識（OCR）模型。

與傳統 OCR 系統逐字讀取不同，DeepSeek-OCR 真正看見文字。
它引入了視覺標記壓縮機制 —— 將 1000 個字元的文件壓縮成僅 100 個視覺標記，同時保持高達 97% 的準確率。

一張 NVIDIA A100 顯示卡每天可處理 20 萬頁文件，使此模型成為文件數位化、歸檔及基於 AI 的知識提取的理想選擇。
本指南將帶您完成安裝、本地使用及在 Hugging Face Spaces 上的雲端部署。

2. 什麼是 DeepSeek-OCR？

DeepSeek-OCR 是一款基於視覺的文字提取模型，適用於掃描文件、PDF 及複雜版面。
它不使用字元級辨識，而是採用視覺標記化技術，一次處理整頁內容，實現更快更準確的推論。

參數	說明
模型大小	30 億參數（3B）
輸入	圖片 / PDF 快照
輸出	純文字或 JSON
上下文長度	最高 8K 標記
框架	PyTorch / Transformers
儲存庫	Hugging Face – DeepSeek-OCR
推薦 GPU	RTX 3090 / A100（≥ 16 GB 顯示記憶體）

3. 主要亮點

視覺標記壓縮 – 將整頁內容作為圖像標記處理。
輕量 30 億參數 – 小巧但高準確度。
複雜版面辨識 – 處理多欄文字、表格、頁首、註腳。
本地部署支援 – 完全離線執行，適合機密資料。
多語言支援 – 支援英文、中文、日文、韓文。

4. 安裝與環境設定

步驟 1 – 建立環境

conda create -n deepseek_ocr python=3.10
conda activate deepseek_ocr

步驟 2 – 安裝相依套件

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
pip install transformers accelerate pillow tqdm

步驟 3 – 下載模型

git lfs install
git clone https://huggingface.co/deepseek-ai/DeepSeek-OCR
cd DeepSeek-OCR

步驟 4 – 執行推論

from transformers import AutoProcessor, AutoModelForVision2Seq
from PIL import Image

processor = AutoProcessor.from_pretrained("deepseek-ai/DeepSeek-OCR")
model = AutoModelForVision2Seq.from_pretrained("deepseek-ai/DeepSeek-OCR").to("cuda")

image = Image.open("sample_page.png")
inputs = processor(images=image, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=4096)
text = processor.decode(outputs[0], skip_special_tokens=True)
print(text)

執行指令：

python run_ocr.py

步驟 5 – 批次處理（選用）

for i in *.png; do python run_ocr.py --image "$i"; done

5. 在 Hugging Face Spaces 上部署 DeepSeek-OCR

想在瀏覽器中直接執行 DeepSeek-OCR 嗎？
您可以使用 Gradio 輕鬆將其部署在 Hugging Face Spaces 上，無需本地 GPU 設定。

步驟 1 – 建立新 Space

訪問 https://huggingface.co/spaces
點擊「New Space」→「Gradio」
選擇名稱（如 deepseek-ocr-demo）並選擇硬體（CPU 或 GPU）

步驟 2 – 新增 app.py

import gradio as gr
from transformers import AutoProcessor, AutoModelForVision2Seq
from PIL import Image

processor = AutoProcessor.from_pretrained("deepseek-ai/DeepSeek-OCR")
model = AutoModelForVision2Seq.from_pretrained("deepseek-ai/DeepSeek-OCR")

def ocr_infer(img):
    inputs = processor(images=img, return_tensors="pt")
    outputs = model.generate(**inputs, max_new_tokens=4096)
    text = processor.decode(outputs[0], skip_special_tokens=True)
    return text

iface = gr.Interface(
    fn=ocr_infer,
    inputs=gr.Image(type="pil"),
    outputs="text",
    title="DeepSeek-OCR 示範",
    description="上傳圖片或掃描頁面，使用 DeepSeek-OCR 提取文字。"
)
iface.launch()

步驟 3 – 推送程式碼

git add app.py
git commit -m "Initial DeepSeek-OCR Demo"
git push

您的示範將在幾分鐘內上線，網址為：
https://huggingface.co/spaces/<您的使用者名稱>/deepseek-ocr-demo

步驟 4 – 嵌入至部落格

您可以直接在 Hugging Face 上開啟示範：

👉 在 Hugging Face 上開啟 DeepSeek-OCR 示範

現在，讀者可以直接在您的文章中上傳圖片並測試模型 🚀

6. 模型比較

模型	大小	語言支援	主要用途	部署方式	準確率
DeepSeek-OCR	30 億	中、英、日、韓	OCR / PDF 解析	本地 + API	≈97%
PaddleOCR	—	多語言	OCR	本地	90–94%
Tesseract 5	—	多語言	基礎 OCR	本地	85–90%
GPT-4 Vision API	—	多語言	通用 OCR	雲端	98% +