Какие параметры вывода наиболее влияют на качество ответов LLM?

Temperature, top_p и top_k — наиболее значимые параметры. Temperature управляет случайностью, top_p ограничивает вероятность массы, а top_k сужает выбор токенов. Вместе они определяют разнообразие и стабильность выходных данных.

Почему некоторые модели демонстрируют лучшие результаты при более высокой температуре?

Некоторые модели, особенно новые архитектуры, такие как Gemma 4, выигрывают от более высокой температуры, поскольку их обучение ориентировано на исследование. Это может улучшить производительность в задачах рассуждений и программирования, вопреки традиционным ожиданиям.

Как следует настраивать LLM для агентов, работающих с кодом?

Агенты для кодинга выигрывают от использования низкой температуры для детерминированного вывода, стабильных значений top_p и минимальных штрафов. При использовании инструментов и генерации кода согласованность важнее креативности.

В чём разница между плотными (dense) и MoE-моделями при настройке для инференса?

Плотные модели используют все параметры для каждого токена и, как правило, демонстрируют устойчивость при меньших штрафах. Модели MoE направляют токены к соответствующим экспертам и могут выигрывать от штрафов за присутствие, чтобы снизить повторения и повысить разнообразие.

Надежны ли значения по умолчанию от поставщика для производственных систем?

Настройки по умолчанию от поставщика — хорошая отправная точка, но часто требуют корректировки. Базовые значения из сообщества и тестирование в реальных условиях часто приводят к более оптимальной конфигурации для конкретных рабочих нагрузок.

Справочник по параметрам агентного вывода LLM для Qwen и Gemma

Справочное руководство по настройке агентов LLM

Содержимое страницы

Эта страница представляет собой практическое руководство по настройке агентов на базе LLM (температура, top_p, top_k, штрафы и их взаимодействие в многоступенчатых рабочих процессах с интенсивным использованием инструментов).

Она дополняет центр инженерии производительности LLM и лучше всего сочетается с историей размещения и обслуживания LLM — пропускная способность и планирование по-прежнему имеют решающее значение, когда модель испытывает дефицит ресурсов, но нестабильная выборка приводит к повторным попыткам и расходу токенов вывода еще до того, как GPU успеет обработать их.

На этой странице собраны:

рекомендуемые параметры от производителей
встроенные значения по умолчанию из GGUF и API
реальные данные сообщества
оптимизации для агентных рабочих процессов

В настоящее время фокус сделан на:

Qwen 3.6 (dense и MoE)
Gemma 4 (dense и MoE)

Если вы используете терминальных агентов, таких как OpenCode, используйте это руководство в сочетании с поведением локальных LLM в OpenCode, чтобы результаты на уровне рабочих нагрузок и значения выборки по умолчанию оставались согласованными.

Цель проста:

Предоставить единое место для настройки моделей для агентных циклов, кодирования и многоступенчатого рассуждения.

Краткая справочная таблица — Все модели (значения по умолчанию для агентов)

Модель	Режим	temp	top_p	top_k	presence_penalty
Qwen 3.5 27B	общее мышление	1.0	0.95	20	0.0
Qwen 3.5 27B	кодирование	0.6	0.95	20	0.0
Qwen 3.5 35B MoE	мышление	1.0	0.95	20	1.5
Qwen 3.5 35B MoE	кодирование	0.6	0.95	20	0.0
Gemma 4 31B	общий	1.0	0.95	64	0.0
Gemma 4 31B	кодирование	1.2	0.95	65	0.0
Gemma 4 26B MoE	общий	1.0	0.95	64	0.0
Gemma 4 26B MoE	кодирование	1.2	0.95	65	0.0

Что на самом деле означает «Агентный инференс»

Большинство руководств по параметрам исходят из предположения:

чат
однократное завершение
взаимодействие с человеком

Агентные системы отличаются.

Они требуют:

многоступенчатого рассуждения
вызова инструментов
стабильного вывода
низкой ошибки распространения

Это меняет приоритеты настройки.

Основной сдвиг

Сценарий использования	Приоритет
Чат	качество естественного языка
Творчество	разнообразие
Агенты	стабильность + стабильность рассуждений

Настройка Qwen 3.6

Имеет значение: Dense против MoE

Qwen — одна из немногих семейств моделей, где:

MoE требует других штрафов

Dense (27B)

стабильный
предсказуемый
без сложности маршрутизации

Рекомендуется:

presence_penalty = 0.0

MoE (35B-A3B)

маршрутизация экспертов для каждого токена
риск циклов повторения

Рекомендуется:

presence_penalty = 1.5 (общий)
0.0 для кодирования

Почему это важно

Модели MoE могут застревать, повторно используя одних и тех же экспертов.

Штраф за присутствие помогает:

разнообразить пути токенов
улучшить исследование рассуждений

Настройка агента Qwen для кодирования

Здесь большинство людей ошибаются.

Правильная настройка

temperature = 0.6
top_p = 0.95
top_k = 20
presence_penalty = 0.0

Почему низкая температура работает

Агентам для кодирования нужны:

детерминированный вывод
повторяемые вызовы инструментов
стабильное форматирование

Более высокая температура:

ломает JSON
вводит галлюцинированные API
увеличивает количество повторных попыток

Настройка Gemma 4

Gemma ведет себя иначе.

Нет официальных значений по умолчанию

карточки моделей пустые
конфигурации неявные
реальная настройка приходит из:
- Google AI Studio
- значений по умолчанию GGUF
- бенчмарков сообщества

Контринтуитивное открытие

Gemma 4 работает лучше при более высокой температуре.

Наблюдаемое поведение

Temp	Результат
0.5	слабое рассуждение
1.0	стабильная базовая линия
1.2 до 1.5	лучшая производительность кодирования

Это противоречит стандартным рекомендациям.

Почему здесь работает высокая температура

Гипотеза:

распределение обучения благоприятствует исследованию
режим рассуждения зависит от разнообразия
модель компенсирует отсутствие явного контроля цепи рассуждений

Результат:

более высокая температура улучшает пространство поиска решений

Настройка агента Gemma для кодирования

Рекомендуется:

temperature = 1.2
top_p = 0.95
top_k = 65
штрафы = 0.0

Важно

Не применяйте традиционное правило «низкая температура для кода» слепо.

Gemma — исключение.

Режим мышления и агентные системы

И Qwen, и Gemma поддерживают режимы рассуждения.

Почему это важно

Агентные циклы требуют:

промежуточного рассуждения
восстановления после ошибок
многоступенчатого планирования

Практическое правило

Всегда включайте режим мышления для:

агентов кодирования
использования инструментов
многоступенчатых задач

Стратегия параметров в зависимости от сценария

Агенты кодирования

приоритет детерминизма
минимизация штрафов
стабильная выборка

Агенты рассуждения

умеренная температура
разрешение на исследование
сохранение структуры

Вызов инструментов

строгое форматирование
низкая случайность
стабильные паттерны токенов

Схемы и инструменты для JSON ортогональны логитам; сочетайте эти правила выборки с паттернами структурированного вывода для Ollama и Qwen3, чтобы валидаторы видели меньше повторных попыток.

Значения по умолчанию от производителей против реальности

Значения по умолчанию от производителей:

безопасные
общие
не оптимизированные

Открытия сообщества часто показывают:

лучшую производительность
настройку под конкретные задачи
корректировки с учетом архитектуры

Пример

Gemma:

официально: нет руководств
сообщество: высокая температура улучшает кодирование

Qwen:

официально: противоречивые разделы
сообщество: стандартизированные значения сходятся

Практические заметки по развертыванию

При конкурентности очередей и разделение памяти взаимодействуют с повторными попытками так же, как и выборка — прочтите как Ollama обрабатывает параллельные запросы вместе с приведенными выше пресетами.

Ollama

хорошо работает для обоих семейств
проверьте совместимость GPU
значения по умолчанию могут отличаться от референсных

vLLM

поддерживает продвинутую выборку
стабильна для продакшена
используйте явные параметры

llama.cpp

требует порядка сэмплеров
всегда включайте jinja для современных моделей
неправильная цепочка сэмплеров снижает качество вывода

Ключевые выводы

не существует универсального набора параметров
архитектура важнее размера модели
агентные системы требуют другой настройки, чем чат
бенчмарки сообщества часто опережают производителей

Финальное мнение

Большинство руководств по параметрам устарели.

Они предполагают:

использование в чате
низкую температуру для кода
статические конфигурации

Современные модели нарушают эти предположения.

Если вы создаете агентные системы:

относитесь к настройке инференса как к проблеме системного дизайна первого класса

А не просто к файлу конфигурации.

Будущее направление

Это руководство будет развиваться в:

глубокие погружения для каждой модели
конфигурации для конкретных агентов
настройку, подкрепленную бенчмарками

Потому что:

инференс — это там, где возможности модели становятся производительностью системы

Краткая справочная таблица — Все модели (значения по умолчанию для агентов)

Что на самом деле означает «Агентный инференс»

Основной сдвиг

Настройка Qwen 3.6

Имеет значение: Dense против MoE

Dense (27B)

MoE (35B-A3B)

Почему это важно

Настройка агента Qwen для кодирования

Правильная настройка

Почему низкая температура работает

Настройка Gemma 4

Нет официальных значений по умолчанию

Контринтуитивное открытие

Наблюдаемое поведение

Почему здесь работает высокая температура

Настройка агента Gemma для кодирования

Важно

Режим мышления и агентные системы

Почему это важно

Практическое правило

Стратегия параметров в зависимости от сценария

Агенты кодирования

Агенты рассуждения

Вызов инструментов

Значения по умолчанию от производителей против реальности

Пример

Практические заметки по развертыванию

Ollama

vLLM

llama.cpp

Ключевые выводы

Финальное мнение

Будущее направление

Подписаться