如何安裝與使用 DeepSeek-OCR:視覺文字壓縮模型詳解
如何安裝與使用 DeepSeek-OCR:視覺文字壓縮模型詳解
1. 簡介
DeepSeek 再次突破極限。
在 2025 年 10 月 20 日,該公司發布了 DeepSeek-OCR,這是一款全新的開源光學字元辨識(OCR)模型。
與傳統 OCR 系統逐字讀取不同,DeepSeek-OCR 真正看見文字。
它引入了視覺標記壓縮機制 —— 將 1000 個字元的文件壓縮成僅 100 個視覺標記,同時保持高達 97% 的準確率。
一張 NVIDIA A100 顯示卡每天可處理 20 萬頁文件,使此模型成為文件數位化、歸檔及基於 AI 的知識提取的理想選擇。
本指南將帶您完成安裝、本地使用及在 Hugging Face Spaces 上的雲端部署。
2. 什麼是 DeepSeek-OCR?
DeepSeek-OCR 是一款基於視覺的文字提取模型,適用於掃描文件、PDF 及複雜版面。
它不使用字元級辨識,而是採用視覺標記化技術,一次處理整頁內容,實現更快更準確的推論。
| 參數 | 說明 |
|---|---|
| 模型大小 | 30 億參數(3B) |
| 輸入 | 圖片 / PDF 快照 |
| 輸出 | 純文字或 JSON |
| 上下文長度 | 最高 8K 標記 |
| 框架 | PyTorch / Transformers |
| 儲存庫 | Hugging Face – DeepSeek-OCR |
| 推薦 GPU | RTX 3090 / A100(≥ 16 GB 顯示記憶體) |
3. 主要亮點
- 視覺標記壓縮 – 將整頁內容作為圖像標記處理。
- 輕量 30 億參數 – 小巧但高準確度。
- 複雜版面辨識 – 處理多欄文字、表格、頁首、註腳。
- 本地部署支援 – 完全離線執行,適合機密資料。
- 多語言支援 – 支援英文、中文、日文、韓文。
4. 安裝與環境設定
步驟 1 – 建立環境
conda create -n deepseek_ocr python=3.10
conda activate deepseek_ocr步驟 2 – 安裝相依套件
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
pip install transformers accelerate pillow tqdm步驟 3 – 下載模型
git lfs install
git clone https://huggingface.co/deepseek-ai/DeepSeek-OCR
cd DeepSeek-OCR步驟 4 – 執行推論
from transformers import AutoProcessor, AutoModelForVision2Seq
from PIL import Image
processor = AutoProcessor.from_pretrained("deepseek-ai/DeepSeek-OCR")
model = AutoModelForVision2Seq.from_pretrained("deepseek-ai/DeepSeek-OCR").to("cuda")
image = Image.open("sample_page.png")
inputs = processor(images=image, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=4096)
text = processor.decode(outputs[0], skip_special_tokens=True)
print(text)執行指令:
python run_ocr.py步驟 5 – 批次處理(選用)
for i in *.png; do python run_ocr.py --image "$i"; done5. 在 Hugging Face Spaces 上部署 DeepSeek-OCR
想在瀏覽器中直接執行 DeepSeek-OCR 嗎?
您可以使用 Gradio 輕鬆將其部署在 Hugging Face Spaces 上,無需本地 GPU 設定。
步驟 1 – 建立新 Space
點擊「New Space」→「Gradio」
選擇名稱(如 deepseek-ocr-demo)並選擇硬體(CPU 或 GPU)
步驟 2 – 新增 app.py
import gradio as gr
from transformers import AutoProcessor, AutoModelForVision2Seq
from PIL import Image
processor = AutoProcessor.from_pretrained("deepseek-ai/DeepSeek-OCR")
model = AutoModelForVision2Seq.from_pretrained("deepseek-ai/DeepSeek-OCR")
def ocr_infer(img):
inputs = processor(images=img, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=4096)
text = processor.decode(outputs[0], skip_special_tokens=True)
return text
iface = gr.Interface(
fn=ocr_infer,
inputs=gr.Image(type="pil"),
outputs="text",
title="DeepSeek-OCR 示範",
description="上傳圖片或掃描頁面,使用 DeepSeek-OCR 提取文字。"
)
iface.launch()步驟 3 – 推送程式碼
git add app.py
git commit -m "Initial DeepSeek-OCR Demo"
git push您的示範將在幾分鐘內上線,網址為:https://huggingface.co/spaces/<您的使用者名稱>/deepseek-ocr-demo
步驟 4 – 嵌入至部落格
您可以直接在 Hugging Face 上開啟示範:
👉 在 Hugging Face 上開啟 DeepSeek-OCR 示範
現在,讀者可以直接在您的文章中上傳圖片並測試模型 🚀
6. 模型比較
| 模型 | 大小 | 語言支援 | 主要用途 | 部署方式 | 準確率 |
|---|---|---|---|---|---|
| DeepSeek-OCR | 30 億 | 中、英、日、韓 | OCR / PDF 解析 | 本地 + API | ≈97% |
| PaddleOCR | — | 多語言 | OCR | 本地 | 90–94% |
| Tesseract 5 | — | 多語言 | 基礎 OCR | 本地 | 85–90% |
| GPT-4 Vision API | — | 多語言 | 通用 OCR | 雲端 | 98% + |
7. 提升效果的技巧
使用 ≥ 300 DPI 的清晰圖片。
處理多頁 PDF 前先分割。
使用 OpenCV 預處理(自適應閾值與傾斜校正)。
使用 accelerate 進行批次平行處理。
嘗試 Hugging Face Spaces 示範,無需設定即可測試。
8. 實際體驗
在 RTX 3090 上,處理 10 頁雙語 PDF 約需每頁 1.6 秒,準確率接近完美。
模型能正確捕捉表格、註腳與版面配置 —— 表現優於多數開源 OCR 工具。
最棒的是,它完全離線執行,適合敏感資料或企業使用。
9. 編輯推薦
對於簡單 OCR 任務,PaddleOCR 已足夠。
但若您處理研究論文、多欄 PDF 或大量文件,DeepSeek-OCR 提供了速度、準確性與隱私的完美平衡。
輕量到適合本地部署 —— 卻強大到足以應對企業自動化需求。
10. 常見問題
Q1. 哪裡可以下載 DeepSeek-OCR?
👉 官方 Hugging Face 儲存庫。
Q2. 支援哪些語言?
官方支援英文、中文、日文與韓文;部分歐洲語言也能良好運作。
Q3. 需要 GPU 嗎?
建議使用 ≥ 16 GB 顯示記憶體的 GPU(如 RTX 3090 / A100)以獲得高效推論。
Q4. 支援表格與公式嗎?
是 —— 表格會輸出為純文字,可轉換為 CSV 或 JSON。
Q5. 有 API 嗎?
有,您可透過 DeepSeek 的 API 平台使用模型 ID deepseek-ocr 呼叫。
Q6. 免費嗎?
開源版本可免費商用。API 使用採計費制。
Q7. 如何提升準確率?
使用高解析度輸入(> 2560 px 寬度)、去除陰影並保持圖片對齊。