Запуск Xiaomi MiMo-V2-Flash локально: Пошаговое руководство по установке и настройке

Около 3 мин

Запуск Xiaomi MiMo-V2-Flash локально: Пошаговое руководство по установке и настройке

MiMo-V2-Flash от Xiaomi — это открытая, высокоэффективная языковая модель Mixture-of-Experts (MoE), обеспечивающая мощный AI вывод на локальном оборудовании и предоставляющая разработчикам полный контроль над данными, задержкой и настройкой без затрат на API. :contentReference[oaicite:0]

Ниже представлено пошаговое руководство по установке и запуску MiMo-V2-Flash на вашем собственном компьютере с несколькими методами, подходящими для различных сред и инструментов.

Что такое MiMo-V2-Flash?

MiMo-V2-Flash — это открытая AI модель, разработанная Xiaomi. Она имеет огромный 309 миллиардов параметров, но активирует только ~15 миллиардов параметров во время вывода, что делает её эффективной для задач большого масштаба. :contentReference[oaicite:1]

Ключевые преимущества включают:

Высокоскоростной вывод, оптимизированный для интеллектуальных агентов. :contentReference[oaicite:2]
Открытые веса и код под лицензией, аналогичной MIT. :contentReference[oaicite:3]
Большое окно контекста и сильные возможности для рассуждений и генерации кода. :contentReference[oaicite:4]

Предварительные требования

Аппаратные требования

Компонент	Минимум	Рекомендуется
GPU	12 ГБ VRAM (например, RTX 3080)	24 ГБ+ (например, RTX 4090 / A6000)
Оперативная память	32 ГБ	64 ГБ+
Хранилище	100 ГБ свободного места	200 ГБ+ NVMe SSD
ЦП	Современный многоядерный	Высокочастотный многоядерный

👉 Локальное развертывание требует серьезных ресурсов GPU и системы. Рассмотрите возможность квантования, если память ограничена.

Настройка программного обеспечения

Перед установкой модели убедитесь, что:

Установлен Python 3.10+.
Настроены драйверы NVIDIA + CUDA Toolkit 11.8/12.4.
Git доступен в вашем PATH.

Проверьте с помощью:

nvidia-smi
nvcc --version

Метод 1 — Использование SGLang (Рекомендуется)

SGLang предоставляет оптимизированную поддержку MoE и является наиболее производительным путем для MiMo-V2-Flash.

Шаг 1 — Подготовка окружения

python -m venv mimo-env
source mimo-env/bin/activate   # Windows: mimo-env\Scripts\activate

Установите PyTorch (пример для CUDA 12.4):

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124
pip install sglang

Шаг 2 — Загрузка модели

huggingface-cli login
huggingface-cli download XiaomiMiMo/MiMo-V2-Flash --local-dir ./models/MiMo-V2-Flash

Шаг 3 — Запуск сервера

python -m sglang.launch_server \
  --model-path ./models/MiMo-V2-Flash \
  --host 0.0.0.0 \
  --port 30000 \
  --trust-remote-code \
  --dtype float16 \
  --max-model-len 262144 \
  --gpu-memory-utilization 0.9

Шаг 4 — Быстрый тест

Используйте Python для отправки запроса:

import requests, json

url = "http://localhost:30000/v1/chat/completions"
data = {
  "model": "MiMo-V2-Flash",
  "messages": [{"role":"user","content":"Напишите функцию на Python для вычисления чисел Фибоначчи"}],
  "max_tokens": 200
}

res = requests.post(url, headers={"Content-Type":"application/json"}, data=json.dumps(data))
print(res.json())

Метод 2 — Hugging Face Transformers

Этот подход использует библиотеку Transformers для загрузки MiMo напрямую.

Шаг 1 — Зависимости

pip install transformers==4.51.0 accelerate bitsandbytes
pip install torch --index-url https://download.pytorch.org/whl/cu124

Шаг 2 — Создание скрипта (run_mimo.py)

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

model_id = "XiaomiMiMo/MiMo-V2-Flash"

tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)

model = AutoModelForCausalLM.from_pretrained(
  model_id,
  torch_dtype=torch.float16,
  device_map="auto",
  trust_remote_code=True,
  load_in_8bit=True
)

prompt = "Объясните, как работают нейронные сети"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)

outputs = model.generate(**inputs, max_new_tokens=150)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

Шаг 3 — Запуск

python run_mimo.py

Метод 3 — Развертывание с помощью Docker

Если вы предпочитаете контейнеризацию:


FROM nvidia/cuda:12.4-devel-ubuntu20.04

RUN apt-get update && apt-get install -y python3.10 python3-pip git

WORKDIR /app
RUN pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124
RUN pip3 install sglang transformers accelerate
COPY models/MiMo-V2-Flash /app/models/MiMo-V2-Flash

EXPOSE 30000

CMD ["python3", "-m", "sglang.launch_server", "--model-path", "/app/models/MiMo-V2-Flash", "--host", "0.0.0.0", "--port", "30000"]

Сборка и запуск

docker build -t mimo-v2-flash .
docker run --gpus all -p 30000:30000 mimo-v2-flash

Советы по производительности

Включите Flash Attention: pip install flash-attn
Используйте квантование: 8-бит или 4-бит для уменьшения использования памяти GPU.
Много-GPU: Установите device_map="auto" и распределите слои между GPU.
Мониторинг: Используйте nvidia-smi для отслеживания памяти и температуры.

Тестирование и валидация

Создайте простой тестовый скрипт:

import requests, json

def test_prompt(prompt):
  url = "http://localhost:30000/v1/chat/completions"
  data = {"model":"MiMo-V2-Flash","messages":[{"role":"user","content":prompt}], "max_tokens":100}
  res = requests.post(url, headers={"Content-Type":"application/json"}, data=json.dumps(data))
  print(res.json())

test_prompt("Какова столица Франции?")
test_prompt("Сгенерируйте Hello World на JavaScript")

Часто задаваемые вопросы

Нужен ли мне интернет для локального запуска?

После однократной загрузки файлов модели вы можете работать полностью офлайн.

Что делать, если памяти GPU недостаточно?

Попробуйте квантование (load_in_8bit=True/4-bit) или переключитесь на меньшую локальную модель. Идеально подходит GPU с большим объемом VRAM.

Можно ли запустить только на ЦП?

Технически да, но вывод будет очень медленным и может не завершиться из-за большого размера модели.

Существует ли версия для Windows?

Да — все вышеуказанные методы работают на Windows с измененными путями и активацией окружения.

Где размещены официальные файлы модели?

Xiaomi размещает MiMo-V2-Flash на Hugging Face и GitHub в рамках своих предложений с открытым исходным кодом.