在本地运行小米 MiMo-V2-Flash：逐步安装和设置指南

大约 4 分钟

在本地运行小米 MiMo-V2-Flash：逐步安装和设置指南

小米的 MiMo-V2-Flash 是一个开源的高效混合专家（MoE）语言模型，能够在本地硬件上提供强大的 AI 推理，并让开发人员完全控制数据、延迟和调优，而无需支付 API 成本。 :contentReference[oaicite:0]

以下是 逐步指南，帮助您在自己的机器上安装和运行 MiMo-V2-Flash，提供多种适合不同环境和工具的方法。

什么是 MiMo-V2-Flash？

MiMo-V2-Flash 是小米开发的开源 AI 模型。它具有 3090 亿总参数 的设计，但在推理过程中仅激活约 150 亿参数，使其在大规模任务中高效。 :contentReference[oaicite:1]

主要优势包括：

针对智能代理优化的高速推理。 :contentReference[oaicite:2]
MIT 类许可下的开源权重和代码。 :contentReference[oaicite:3]
大上下文窗口 和强大的推理与代码生成能力。 :contentReference[oaicite:4]

先决条件

硬件要求

组件	最低要求	推荐要求
GPU	12 GB VRAM（例如，RTX 3080）	24 GB+（例如，RTX 4090 / A6000）
系统 RAM	32 GB	64 GB+
存储	100 GB 可用空间	200 GB+ NVMe SSD
CPU	现代多核	高时钟多核

👉 本地部署需要强大的 GPU 和系统资源。如果内存有限，请考虑量化。

软件设置

在安装模型之前，请确保：

已安装 Python 3.10+。
配置了 NVIDIA 驱动程序 + CUDA Toolkit 11.8/12.4。
Git 可在您的 PATH 中使用。

检查方法：

nvidia-smi
nvcc --version

方法 1 — 使用 SGLang（推荐）

SGLang 提供优化的 MoE 支持，是 MiMo-V2-Flash 性能调优的最佳路径。

步骤 1 — 准备环境

python -m venv mimo-env
source mimo-env/bin/activate   # Windows: mimo-env\Scripts\activate

安装 PyTorch（CUDA 12.4 示例）：

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124
pip install sglang

步骤 2 — 下载模型

huggingface-cli login
huggingface-cli download XiaomiMiMo/MiMo-V2-Flash --local-dir ./models/MiMo-V2-Flash

步骤 3 — 启动服务器

python -m sglang.launch_server \
  --model-path ./models/MiMo-V2-Flash \
  --host 0.0.0.0 \
  --port 30000 \
  --trust-remote-code \
  --dtype float16 \
  --max-model-len 262144 \
  --gpu-memory-utilization 0.9

步骤 4 — 快速测试

使用 Python 发送请求：

import requests, json

url = "http://localhost:30000/v1/chat/completions"
data = {
  "model": "MiMo-V2-Flash",
  "messages": [{"role":"user","content":"写一个计算 Fibonacci 的 Python 函数"}],
  "max_tokens": 200
}

res = requests.post(url, headers={"Content-Type":"application/json"}, data=json.dumps(data))
print(res.json())

方法 2 — Hugging Face Transformers

此方法使用 Transformers 库直接加载 MiMo。

步骤 1 — 依赖项

pip install transformers==4.51.0 accelerate bitsandbytes
pip install torch --index-url https://download.pytorch.org/whl/cu124

步骤 2 — 创建脚本 (run_mimo.py)

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

model_id = "XiaomiMiMo/MiMo-V2-Flash"

tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)

model = AutoModelForCausalLM.from_pretrained(
  model_id,
  torch_dtype=torch.float16,
  device_map="auto",
  trust_remote_code=True,
  load_in_8bit=True
)

prompt = "解释神经网络是如何工作的"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)

outputs = model.generate(**inputs, max_new_tokens=150)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

步骤 3 — 运行

python run_mimo.py

方法 3 — Docker 部署

如果您更喜欢容器化：


FROM nvidia/cuda:12.4-devel-ubuntu20.04

RUN apt-get update && apt-get install -y python3.10 python3-pip git

WORKDIR /app
RUN pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124
RUN pip3 install sglang transformers accelerate
COPY models/MiMo-V2-Flash /app/models/MiMo-V2-Flash

EXPOSE 30000

CMD ["python3", "-m", "sglang.launch_server", "--model-path", "/app/models/MiMo-V2-Flash", "--host", "0.0.0.0", "--port", "30000"]

构建与运行

docker build -t mimo-v2-flash .
docker run --gpus all -p 30000:30000 mimo-v2-flash

性能提示

启用 Flash Attention: pip install flash-attn
使用量化：8 位或 4 位以减少 GPU 内存。
多 GPU：设置 device_map="auto" 并在 GPU 之间分配层。
监控：使用 nvidia-smi 监控内存和温度。

测试与验证

创建一个简单的测试脚本：

import requests, json

def test_prompt(prompt):
  url = "http://localhost:30000/v1/chat/completions"
  data = {"model":"MiMo-V2-Flash","messages":[{"role":"user","content":prompt}], "max_tokens":100}
  res = requests.post(url, headers={"Content-Type":"application/json"}, data=json.dumps(data))
  print(res.json())

test_prompt("法国的首都是什么？")
test_prompt("生成一个 JavaScript 的 Hello World")

常见问题

我需要互联网连接才能在本地运行吗？

在下载模型文件一次后，您可以完全离线运行。

如果 GPU 内存不足怎么办？

尝试量化（load_in_8bit=True/4-bit），或切换到较小的本地模型。高 VRAM GPU 是理想选择。

这可以仅在 CPU 上运行吗？

从技术上讲可以，但推理会非常慢，并且可能由于模型大小过大而无法完成。

有 Windows 版本吗？

是的 — 上述所有方法在 Windows 上都可以使用，只需调整路径和环境激活。

官方模型文件托管在哪里？

小米在 Hugging Face 和 GitHub 上托管 MiMo-V2-Flash，作为其开源产品的一部分。