在本地運行 Xiaomi MiMo-V2-Flash：逐步安裝與設置指南

大约 4 分鐘

在本地運行 Xiaomi MiMo-V2-Flash：逐步安裝與設置指南

小米的 MiMo-V2-Flash 是一個開源的高效 Mixture-of-Experts (MoE) 語言模型，能在本地硬體上提供強大的 AI 推理，並讓開發者完全控制數據、延遲和調整，而無需支付 API 成本。 :contentReference[oaicite:0]

以下是 逐步指南，教你如何在自己的機器上安裝和運行 MiMo-V2-Flash，提供多種方法以適應不同的環境和工具。

什麼是 MiMo-V2-Flash？

MiMo-V2-Flash 是小米開發的一個開源 AI 模型。它擁有 3090 億總參數 的設計，但在推理過程中僅激活約 150 億參數，使其在大規模任務中高效。 :contentReference[oaicite:1]

其主要優勢包括：

高速度推理，針對智能代理進行優化。 :contentReference[oaicite:2]
開源權重與代碼，採用類似 MIT 的許可證。 :contentReference[oaicite:3]
大上下文窗口 和強大的推理及代碼生成能力。 :contentReference[oaicite:4]

前置條件

硬體需求

組件	最低要求	推薦要求
GPU	12 GB VRAM (例如 RTX 3080)	24 GB+ (例如 RTX 4090 / A6000)
系統 RAM	32 GB	64 GB+
儲存空間	100 GB 可用空間	200 GB+ NVMe SSD
CPU	現代多核心	高時脈多核心

👉 本地部署需要強大的 GPU 和系統資源。如果內存有限，考慮量化。

軟體設置

在安裝模型之前，請確保：

Python 3.10+ 已安裝。
NVIDIA 驅動程式 + CUDA Toolkit 11.8/12.4 已配置。
Git 可在你的 PATH 中使用。

檢查方法：

nvidia-smi
nvcc --version

方法 1 — 使用 SGLang（推薦）

SGLang 提供優化的 MoE 支持，是 MiMo-V2-Flash 性能調整最佳的路徑。

步驟 1 — 準備環境

python -m venv mimo-env
source mimo-env/bin/activate   # Windows: mimo-env\Scripts\activate

安裝 PyTorch（CUDA 12.4 範例）：

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124
pip install sglang

步驟 2 — 下載模型

huggingface-cli login
huggingface-cli download XiaomiMiMo/MiMo-V2-Flash --local-dir ./models/MiMo-V2-Flash

步驟 3 — 啟動伺服器

python -m sglang.launch_server \
  --model-path ./models/MiMo-V2-Flash \
  --host 0.0.0.0 \
  --port 30000 \
  --trust-remote-code \
  --dtype float16 \
  --max-model-len 262144 \
  --gpu-memory-utilization 0.9

步驟 4 — 快速測試

使用 Python 發送請求：

import requests, json

url = "http://localhost:30000/v1/chat/completions"
data = {
  "model": "MiMo-V2-Flash",
  "messages": [{"role":"user","content":"寫一個計算 Fibonacci 的 Python 函數"}],
  "max_tokens": 200
}

res = requests.post(url, headers={"Content-Type":"application/json"}, data=json.dumps(data))
print(res.json())

方法 2 — Hugging Face Transformers

這種方法使用 Transformers 庫直接加載 MiMo。

步驟 1 — 依賴項

pip install transformers==4.51.0 accelerate bitsandbytes
pip install torch --index-url https://download.pytorch.org/whl/cu124

步驟 2 — 創建腳本 (run_mimo.py)

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

model_id = "XiaomiMiMo/MiMo-V2-Flash"

tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)

model = AutoModelForCausalLM.from_pretrained(
  model_id,
  torch_dtype=torch.float16,
  device_map="auto",
  trust_remote_code=True,
  load_in_8bit=True
)

prompt = "解釋神經網絡是如何工作的"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)

outputs = model.generate(**inputs, max_new_tokens=150)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

步驟 3 — 運行

python run_mimo.py

方法 3 — Docker 部署

如果你偏好容器化：


FROM nvidia/cuda:12.4-devel-ubuntu20.04

RUN apt-get update && apt-get install -y python3.10 python3-pip git

WORKDIR /app
RUN pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124
RUN pip3 install sglang transformers accelerate
COPY models/MiMo-V2-Flash /app/models/MiMo-V2-Flash

EXPOSE 30000

CMD ["python3", "-m", "sglang.launch_server", "--model-path", "/app/models/MiMo-V2-Flash", "--host", "0.0.0.0", "--port", "30000"]

構建與運行

docker build -t mimo-v2-flash .
docker run --gpus all -p 30000:30000 mimo-v2-flash

性能提示

啟用 Flash Attention: pip install flash-attn
使用量化：8-bit 或 4-bit 以減少 GPU 內存。
多 GPU：設置 device_map="auto" 並在 GPU 之間分配層。
監控：使用 nvidia-smi 監控內存和溫度。

測試與驗證

創建一個簡單的測試腳本：

import requests, json

def test_prompt(prompt):
  url = "http://localhost:30000/v1/chat/completions"
  data = {"model":"MiMo-V2-Flash","messages":[{"role":"user","content":prompt}], "max_tokens":100}
  res = requests.post(url, headers={"Content-Type":"application/json"}, data=json.dumps(data))
  print(res.json())

test_prompt("法國的首都在哪裡？")
test_prompt("生成一個 JavaScript 的 Hello World")

常見問題

我需要網路連接才能在本地運行嗎？

在第一次下載模型檔案後，你可以完全離線運行。

如果 GPU 內存不足怎麼辦？

嘗試量化（load_in_8bit=True/4-bit），或切換到較小的本地模型。高 VRAM 的 GPU 是理想選擇。

這可以僅在 CPU 上運行嗎？

技術上可以，但推理會非常慢，並且可能因為模型大小過大而無法完成。

有 Windows 版本嗎？

有 — 上述所有方法在 Windows 上均可運行，只需調整路徑和環境激活。

官方模型檔案在哪裡託管？

小米在 Hugging Face 和 GitHub 上託管 MiMo-V2-Flash，作為其開源產品的一部分。