Справочник по параметрам агентного вывода LLM для Qwen и Gemma

Справочное руководство по настройке агентов LLM

Содержимое страницы

Эта страница представляет собой практическое руководство по настройке агентов на базе LLM (температура, top_p, top_k, штрафы и их взаимодействие в многоступенчатых рабочих процессах с интенсивным использованием инструментов).

Она дополняет центр инженерии производительности LLM и лучше всего сочетается с историей размещения и обслуживания LLM — пропускная способность и планирование по-прежнему имеют решающее значение, когда модель испытывает дефицит ресурсов, но нестабильная выборка приводит к повторным попыткам и расходу токенов вывода еще до того, как GPU успеет обработать их.

На этой странице собраны:

  • рекомендуемые параметры от производителей
  • встроенные значения по умолчанию из GGUF и API
  • реальные данные сообщества
  • оптимизации для агентных рабочих процессов

В настоящее время фокус сделан на:

  • Qwen 3.6 (dense и MoE)
  • Gemma 4 (dense и MoE)

Если вы используете терминальных агентов, таких как OpenCode, используйте это руководство в сочетании с поведением локальных LLM в OpenCode, чтобы результаты на уровне рабочих нагрузок и значения выборки по умолчанию оставались согласованными.

Цель проста:

Предоставить единое место для настройки моделей для агентных циклов, кодирования и многоступенчатого рассуждения.


Краткая справочная таблица — Все модели (значения по умолчанию для агентов)

Модель Режим temp top_p top_k presence_penalty
Qwen 3.5 27B общее мышление 1.0 0.95 20 0.0
Qwen 3.5 27B кодирование 0.6 0.95 20 0.0
Qwen 3.5 35B MoE мышление 1.0 0.95 20 1.5
Qwen 3.5 35B MoE кодирование 0.6 0.95 20 0.0
Gemma 4 31B общий 1.0 0.95 64 0.0
Gemma 4 31B кодирование 1.2 0.95 65 0.0
Gemma 4 26B MoE общий 1.0 0.95 64 0.0
Gemma 4 26B MoE кодирование 1.2 0.95 65 0.0

Что на самом деле означает «Агентный инференс»

Большинство руководств по параметрам исходят из предположения:

  • чат
  • однократное завершение
  • взаимодействие с человеком

Агентные системы отличаются.

Они требуют:

  • многоступенчатого рассуждения
  • вызова инструментов
  • стабильного вывода
  • низкой ошибки распространения

Это меняет приоритеты настройки.

Основной сдвиг

Сценарий использования Приоритет
Чат качество естественного языка
Творчество разнообразие
Агенты стабильность + стабильность рассуждений

Настройка Qwen 3.6

Имеет значение: Dense против MoE

Qwen — одна из немногих семейств моделей, где:

MoE требует других штрафов

Dense (27B)

  • стабильный
  • предсказуемый
  • без сложности маршрутизации

Рекомендуется:

  • presence_penalty = 0.0

MoE (35B-A3B)

  • маршрутизация экспертов для каждого токена
  • риск циклов повторения

Рекомендуется:

  • presence_penalty = 1.5 (общий)
  • 0.0 для кодирования

Почему это важно

Модели MoE могут застревать, повторно используя одних и тех же экспертов.

Штраф за присутствие помогает:

  • разнообразить пути токенов
  • улучшить исследование рассуждений

Настройка агента Qwen для кодирования

Здесь большинство людей ошибаются.

Правильная настройка

  • temperature = 0.6
  • top_p = 0.95
  • top_k = 20
  • presence_penalty = 0.0

Почему низкая температура работает

Агентам для кодирования нужны:

  • детерминированный вывод
  • повторяемые вызовы инструментов
  • стабильное форматирование

Более высокая температура:

  • ломает JSON
  • вводит галлюцинированные API
  • увеличивает количество повторных попыток

Настройка Gemma 4

Gemma ведет себя иначе.

Нет официальных значений по умолчанию

  • карточки моделей пустые
  • конфигурации неявные
  • реальная настройка приходит из:
    • Google AI Studio
    • значений по умолчанию GGUF
    • бенчмарков сообщества

Контринтуитивное открытие

Gemma 4 работает лучше при более высокой температуре.

Наблюдаемое поведение

Temp Результат
0.5 слабое рассуждение
1.0 стабильная базовая линия
1.2 до 1.5 лучшая производительность кодирования

Это противоречит стандартным рекомендациям.


Почему здесь работает высокая температура

Гипотеза:

  • распределение обучения благоприятствует исследованию
  • режим рассуждения зависит от разнообразия
  • модель компенсирует отсутствие явного контроля цепи рассуждений

Результат:

более высокая температура улучшает пространство поиска решений


Настройка агента Gemma для кодирования

Рекомендуется:

  • temperature = 1.2
  • top_p = 0.95
  • top_k = 65
  • штрафы = 0.0

Важно

Не применяйте традиционное правило «низкая температура для кода» слепо.

Gemma — исключение.


Режим мышления и агентные системы

И Qwen, и Gemma поддерживают режимы рассуждения.

Почему это важно

Агентные циклы требуют:

  • промежуточного рассуждения
  • восстановления после ошибок
  • многоступенчатого планирования

Практическое правило

Всегда включайте режим мышления для:

  • агентов кодирования
  • использования инструментов
  • многоступенчатых задач

Стратегия параметров в зависимости от сценария

Агенты кодирования

  • приоритет детерминизма
  • минимизация штрафов
  • стабильная выборка

Агенты рассуждения

  • умеренная температура
  • разрешение на исследование
  • сохранение структуры

Вызов инструментов

  • строгое форматирование
  • низкая случайность
  • стабильные паттерны токенов

Схемы и инструменты для JSON ортогональны логитам; сочетайте эти правила выборки с паттернами структурированного вывода для Ollama и Qwen3, чтобы валидаторы видели меньше повторных попыток.


Значения по умолчанию от производителей против реальности

Значения по умолчанию от производителей:

  • безопасные
  • общие
  • не оптимизированные

Открытия сообщества часто показывают:

  • лучшую производительность
  • настройку под конкретные задачи
  • корректировки с учетом архитектуры

Пример

Gemma:

  • официально: нет руководств
  • сообщество: высокая температура улучшает кодирование

Qwen:

  • официально: противоречивые разделы
  • сообщество: стандартизированные значения сходятся

Практические заметки по развертыванию

При конкурентности очередей и разделение памяти взаимодействуют с повторными попытками так же, как и выборка — прочтите как Ollama обрабатывает параллельные запросы вместе с приведенными выше пресетами.

Ollama

  • хорошо работает для обоих семейств
  • проверьте совместимость GPU
  • значения по умолчанию могут отличаться от референсных

vLLM

  • поддерживает продвинутую выборку
  • стабильна для продакшена
  • используйте явные параметры

llama.cpp

  • требует порядка сэмплеров
  • всегда включайте jinja для современных моделей
  • неправильная цепочка сэмплеров снижает качество вывода

Ключевые выводы

  • не существует универсального набора параметров
  • архитектура важнее размера модели
  • агентные системы требуют другой настройки, чем чат
  • бенчмарки сообщества часто опережают производителей

Финальное мнение

Большинство руководств по параметрам устарели.

Они предполагают:

  • использование в чате
  • низкую температуру для кода
  • статические конфигурации

Современные модели нарушают эти предположения.

Если вы создаете агентные системы:

относитесь к настройке инференса как к проблеме системного дизайна первого класса

А не просто к файлу конфигурации.


Будущее направление

Это руководство будет развиваться в:

  • глубокие погружения для каждой модели
  • конфигурации для конкретных агентов
  • настройку, подкрепленную бенчмарками

Потому что:

инференс — это там, где возможности модели становятся производительностью системы

Подписаться

Получайте новые материалы про системы, инфраструктуру и AI engineering.