Справочник по параметрам агентного вывода LLM для Qwen и Gemma
Справочное руководство по настройке агентов LLM
Эта страница представляет собой практическое руководство по настройке агентов на базе LLM (температура, top_p, top_k, штрафы и их взаимодействие в многоступенчатых рабочих процессах с интенсивным использованием инструментов).
Она дополняет центр инженерии производительности LLM и лучше всего сочетается с историей размещения и обслуживания LLM — пропускная способность и планирование по-прежнему имеют решающее значение, когда модель испытывает дефицит ресурсов, но нестабильная выборка приводит к повторным попыткам и расходу токенов вывода еще до того, как GPU успеет обработать их.
На этой странице собраны:
- рекомендуемые параметры от производителей
- встроенные значения по умолчанию из GGUF и API
- реальные данные сообщества
- оптимизации для агентных рабочих процессов
В настоящее время фокус сделан на:
- Qwen 3.6 (dense и MoE)
- Gemma 4 (dense и MoE)
Если вы используете терминальных агентов, таких как OpenCode, используйте это руководство в сочетании с поведением локальных LLM в OpenCode, чтобы результаты на уровне рабочих нагрузок и значения выборки по умолчанию оставались согласованными.
Цель проста:
Предоставить единое место для настройки моделей для агентных циклов, кодирования и многоступенчатого рассуждения.
Краткая справочная таблица — Все модели (значения по умолчанию для агентов)
| Модель | Режим | temp | top_p | top_k | presence_penalty |
|---|---|---|---|---|---|
| Qwen 3.5 27B | общее мышление | 1.0 | 0.95 | 20 | 0.0 |
| Qwen 3.5 27B | кодирование | 0.6 | 0.95 | 20 | 0.0 |
| Qwen 3.5 35B MoE | мышление | 1.0 | 0.95 | 20 | 1.5 |
| Qwen 3.5 35B MoE | кодирование | 0.6 | 0.95 | 20 | 0.0 |
| Gemma 4 31B | общий | 1.0 | 0.95 | 64 | 0.0 |
| Gemma 4 31B | кодирование | 1.2 | 0.95 | 65 | 0.0 |
| Gemma 4 26B MoE | общий | 1.0 | 0.95 | 64 | 0.0 |
| Gemma 4 26B MoE | кодирование | 1.2 | 0.95 | 65 | 0.0 |
Что на самом деле означает «Агентный инференс»
Большинство руководств по параметрам исходят из предположения:
- чат
- однократное завершение
- взаимодействие с человеком
Агентные системы отличаются.
Они требуют:
- многоступенчатого рассуждения
- вызова инструментов
- стабильного вывода
- низкой ошибки распространения
Это меняет приоритеты настройки.
Основной сдвиг
| Сценарий использования | Приоритет |
|---|---|
| Чат | качество естественного языка |
| Творчество | разнообразие |
| Агенты | стабильность + стабильность рассуждений |
Настройка Qwen 3.6
Имеет значение: Dense против MoE
Qwen — одна из немногих семейств моделей, где:
MoE требует других штрафов
Dense (27B)
- стабильный
- предсказуемый
- без сложности маршрутизации
Рекомендуется:
- presence_penalty = 0.0
MoE (35B-A3B)
- маршрутизация экспертов для каждого токена
- риск циклов повторения
Рекомендуется:
- presence_penalty = 1.5 (общий)
- 0.0 для кодирования
Почему это важно
Модели MoE могут застревать, повторно используя одних и тех же экспертов.
Штраф за присутствие помогает:
- разнообразить пути токенов
- улучшить исследование рассуждений
Настройка агента Qwen для кодирования
Здесь большинство людей ошибаются.
Правильная настройка
- temperature = 0.6
- top_p = 0.95
- top_k = 20
- presence_penalty = 0.0
Почему низкая температура работает
Агентам для кодирования нужны:
- детерминированный вывод
- повторяемые вызовы инструментов
- стабильное форматирование
Более высокая температура:
- ломает JSON
- вводит галлюцинированные API
- увеличивает количество повторных попыток
Настройка Gemma 4
Gemma ведет себя иначе.
Нет официальных значений по умолчанию
- карточки моделей пустые
- конфигурации неявные
- реальная настройка приходит из:
- Google AI Studio
- значений по умолчанию GGUF
- бенчмарков сообщества
Контринтуитивное открытие
Gemma 4 работает лучше при более высокой температуре.
Наблюдаемое поведение
| Temp | Результат |
|---|---|
| 0.5 | слабое рассуждение |
| 1.0 | стабильная базовая линия |
| 1.2 до 1.5 | лучшая производительность кодирования |
Это противоречит стандартным рекомендациям.
Почему здесь работает высокая температура
Гипотеза:
- распределение обучения благоприятствует исследованию
- режим рассуждения зависит от разнообразия
- модель компенсирует отсутствие явного контроля цепи рассуждений
Результат:
более высокая температура улучшает пространство поиска решений
Настройка агента Gemma для кодирования
Рекомендуется:
- temperature = 1.2
- top_p = 0.95
- top_k = 65
- штрафы = 0.0
Важно
Не применяйте традиционное правило «низкая температура для кода» слепо.
Gemma — исключение.
Режим мышления и агентные системы
И Qwen, и Gemma поддерживают режимы рассуждения.
Почему это важно
Агентные циклы требуют:
- промежуточного рассуждения
- восстановления после ошибок
- многоступенчатого планирования
Практическое правило
Всегда включайте режим мышления для:
- агентов кодирования
- использования инструментов
- многоступенчатых задач
Стратегия параметров в зависимости от сценария
Агенты кодирования
- приоритет детерминизма
- минимизация штрафов
- стабильная выборка
Агенты рассуждения
- умеренная температура
- разрешение на исследование
- сохранение структуры
Вызов инструментов
- строгое форматирование
- низкая случайность
- стабильные паттерны токенов
Схемы и инструменты для JSON ортогональны логитам; сочетайте эти правила выборки с паттернами структурированного вывода для Ollama и Qwen3, чтобы валидаторы видели меньше повторных попыток.
Значения по умолчанию от производителей против реальности
Значения по умолчанию от производителей:
- безопасные
- общие
- не оптимизированные
Открытия сообщества часто показывают:
- лучшую производительность
- настройку под конкретные задачи
- корректировки с учетом архитектуры
Пример
Gemma:
- официально: нет руководств
- сообщество: высокая температура улучшает кодирование
Qwen:
- официально: противоречивые разделы
- сообщество: стандартизированные значения сходятся
Практические заметки по развертыванию
При конкурентности очередей и разделение памяти взаимодействуют с повторными попытками так же, как и выборка — прочтите как Ollama обрабатывает параллельные запросы вместе с приведенными выше пресетами.
Ollama
- хорошо работает для обоих семейств
- проверьте совместимость GPU
- значения по умолчанию могут отличаться от референсных
vLLM
- поддерживает продвинутую выборку
- стабильна для продакшена
- используйте явные параметры
llama.cpp
- требует порядка сэмплеров
- всегда включайте jinja для современных моделей
- неправильная цепочка сэмплеров снижает качество вывода
Ключевые выводы
- не существует универсального набора параметров
- архитектура важнее размера модели
- агентные системы требуют другой настройки, чем чат
- бенчмарки сообщества часто опережают производителей
Финальное мнение
Большинство руководств по параметрам устарели.
Они предполагают:
- использование в чате
- низкую температуру для кода
- статические конфигурации
Современные модели нарушают эти предположения.
Если вы создаете агентные системы:
относитесь к настройке инференса как к проблеме системного дизайна первого класса
А не просто к файлу конфигурации.
Будущее направление
Это руководство будет развиваться в:
- глубокие погружения для каждой модели
- конфигурации для конкретных агентов
- настройку, подкрепленную бенчмарками
Потому что:
инференс — это там, где возможности модели становятся производительностью системы