Выпуск DeepSeek-V3.1: Первый шаг к эпохе Agent (краткое руководство + ключевые особенности)
Выпуск DeepSeek-V3.1: Первый шаг к эпохе Agent (краткое руководство + ключевые особенности)
21 августа DeepSeek официально представил DeepSeek-V3.1. Это поколение включает значительные улучшения в гибридных рассуждениях (режимы мышления/без мышления), эффективности и возможностях инструментов Agent. Обновление уже доступно в официальном приложении и веб-клиенте (с новой кнопкой «Глубокое мышление»). Для API deepseek-chat
соответствует режиму без мышления, а deepseek-reasoner
— режиму мышления, оба теперь поддерживают окно контекста 128K. Кроме того, добавлены строгий Function Calling (Beta) и совместимость с Anthropic API, что упрощает интеграцию с экосистемами, такими как Claude Code.
Ключевые изменения в V3.1
- Гибридная архитектура рассуждений: Одна модель, два режима — свободное переключение между «мышлением» и «без мышления».
- Повышение эффективности: На 20%–50% меньше токенов в среднем в режиме мышления при сохранении производительности на уровне R1-0528.
- Улучшенные возможности Agent: Значительный прогресс в программировании, терминальных задачах и многошаговом поиске.
- Удобство для разработчиков: Окно контекста 128K, строгий Function Calling (Beta), совместимость с Anthropic API, более плавный и масштабируемый доступ к API.
Результаты тестов Agent: Улучшение в программировании и поиске
Публичные тесты показывают значительный рост в программных агентах и поисковых агентах:
- SWE Verified (режим Agent): V3.1 66.0 vs R1-0528 44.6
- Terminal-bench (Terminus 1): V3.1 31.3 vs R1-0528 5.7
- BrowseComp (многошаговый поиск): V3.1-Think 30.0 vs R1-0528 8.9
- HLE (экспертные задачи в разных областях): V3.1-Think 29.8 vs R1-0528 24.8
Это говорит о более надёжном использовании инструментов и глубоких рассуждениях для задач, связанных с поиском.
Эффективность рассуждений: Короче цепочки, та же точность
Благодаря обучению сжатию цепочек рассуждений, V3.1-Think сокращает 20%–50% токенов на выходе, сохраняя результаты на уровне R1-0528. Например:
- AIME 2025: 88.4 vs 87.5
- GPQA: 80.1 vs 81
- liveCodeBench: 74.8 vs 73.3
На практике это означает меньшую задержку и затраты при сохранении точности рассуждений.
5 вещей, которые нужно знать разработчикам
Выбор правильной модели
Используйтеdeepseek-chat
для быстрых и лёгких задач;deepseek-reasoner
— для сложных рассуждений. Оба поддерживают контекст 128K.Строгий Function Calling (Beta)
Укажитеbase_url=https://api.deepseek.com/beta
, добавьтеstrict: true
в схему. Сервер будет проверять соответствие схеме, гарантируя строгое соответствие выходных данных.Совместимость с Anthropic API
НастройтеANTHROPIC_BASE_URL=https://api.deepseek.com/anthropic
для прямого вызова моделей DeepSeek в Claude Code и других SDK на базе Anthropic.Открытый исходный код и точность
- Доступные модели: Базовые и дообученные веса (доступны на Hugging Face и ModelScope).
- **Дополни