LLMの出力品質に最も影響を与える推論パラメータは何か？

temperature、top_p、top_k は最も影響の大きいパラメータです。temperature はランダム性を制御し、top_p は確率質量を制限し、top_k はトークンの選択を制限します。これらにより、出力の多様性と安定性が決定されます。

「なぜ一部のモデルは温度（temperature）が高い方がパフォーマンスが向上するのでしょうか？」

Gemma 4などの新しいアーキテクチャを持つモデルの一部は、探索を重視した訓練手法により、高温設定（高温度）から恩恵を受けることがあります。これは、従来の常識に反するものの、推論やコーディングのパフォーマンス向上に寄与します。

LLMはコーディングエージェント用にどのように設定すべきか

コーディングエージェントでは、決定論的な出力を得るために低い温度（temperature）値、安定したtop_p値、および最小限のペナルティを使用することが有利です。ツールの使用やコード生成において、創造性よりも一貫性が重要となります。

推論チューニングにおけるDenseモデルとMoEモデルの違いは何ですか？

Denseモデルは1トークンあたり全てのパラメータを使用し、ペナルティが低くても安定した動作を示す傾向があります。一方、MoEモデルはトークンを複数のエキスパートにルーティングするため、繰り返しを減らし多様性を高めるためにPresence Penaltyを活用できる可能性があります。

ベンダーのデフォルト設定は本番環境で信頼できるでしょうか？

ベンダーのデフォルト設定は良い出発点ですが、調整が必要な場合がほとんどです。コミュニティのベンチマークや実環境でのテストを活用することで、特定のワークロードに最適化された構成を導き出せることが多いでしょう。

QwenおよびGemmaにおけるエージェンティックLLM推論パラメータの参照

エージェント型LLMのチューニングに関する参照資料

このページは、エージェント型LLM推論チューニングの実用的なリファレンス（temperature、top_p、top_k、ペナルティ、およびマルチステップやツール多用なワークフローにおけるそれらの相互作用）です。

より広範なLLMパフォーマンスエンジニアリングハブと併せて参照し、明確なLLMホスティングとサービングの概要と組み合わせることで、モデルがリソース不足に陥った際にはスループットとスケジューリングが依然として支配的ですが、不安定なサンプリングはGPUが処理を終える前にリトライと出力トークンを消費してしまうことがわかります。

このページでは以下をまとめます：

ベンダー推奨パラメータ
GGUFおよびAPIに組み込まれたデフォルト値
実世界のコミュニティの知見
エージェント型ワークフローの最適化

現在、以下に焦点を当てています：

Qwen 3.6（DenseおよびMoE）
Gemma 4（DenseおよびMoE）

OpenCodeなどのターミナルエージェントを使用している場合は、このリファレンスをOpenCodeにおけるローカルLLMの動作と組み合わせて使用し、ワークロードレベルの結果とサンプリングデフォルト値が整合するよう調整してください。

目標はシンプルです：

エージェントループ、コーディング、およびマルチステップ推論用のモデル設定を一元管理する。

TLDR リファレンステーブル - すべてのモデル（エージェント用デフォルト）

モデル	モード	temp	top_p	top_k	presence_penalty
Qwen 3.5 27B	推論・一般	1.0	0.95	20	0.0
Qwen 3.5 27B	コーディング	0.6	0.95	20	0.0
Qwen 3.5 35B MoE	推論	1.0	0.95	20	1.5
Qwen 3.5 35B MoE	コーディング	0.6	0.95	20	0.0
Gemma 4 31B	一般	1.0	0.95	64	0.0
Gemma 4 31B	コーディング	1.2	0.95	65	0.0
Gemma 4 26B MoE	一般	1.0	0.95	64	0.0
Gemma 4 26B MoE	コーディング	1.2	0.95	65	0.0

「エージェント型推論」とは何か

多くのパラメータガイドは以下を前提としています：

チャット
シングルスロット完了
人間の対話

エージェントシステムはこれらとは異なります。

エージェントシステムには以下が求められます：

マルチステップ推論
ツール呼び出し
一貫した出力
エラー伝播の最小化

これにより、チューニングの優先順位が変化します。

核心的な変化

使用ケース	優先事項
チャット	自然言語の品質
創造的	多様性
エージェント	一貫性 + 推論の安定性

Qwen 3.6 のチューニング

DenseとMoEの違いは重要

Qwenは以下の点で唯一のモデルファミリーの一つです：

MoEは異なるペナルティを必要とする

Dense (27B)

安定
予測可能
ルーティングの複雑さなし

推奨設定：

presence_penalty = 0.0

MoE (35B-A3B)

トークンごとのエキスパートルーティング
反復ループのリスク

推奨設定：

presence_penalty = 1.5（一般用途）
コーディングの場合は 0.0

なぜこれが重要か

MoEモデルは同じエキスパートを再利用し続けてしまうことがあります。

Presence penaltyは以下に役立ちます：

トークンパスの多様化
推論探索の改善

Qwenのエージェント型コーディング設定

ここが多くの人が間違えるところです。

正しい設定

temperature = 0.6
top_p = 0.95
top_k = 20
presence_penalty = 0.0

なぜ低い温度が有効なのか

コーディングエージェントには以下が必要です：

決定論的な出力
再現可能なツール呼び出し
安定したフォーマット

温度が高いと：

JSONが壊れる
ハルシネーション（幻覚）によるAPIが導入される
リトライが増加する

Gemma 4 のチューニング

Gemmaは異なる挙動を示します。

公式デフォルトの欠如

モデルカードは空欄
設定は暗黙的
実用的なチューニングは以下から得られる：
- Google AI Studio
- GGUFデフォルト
- コミュニティベンチマーク

直感に反する発見

Gemma 4は高い温度でより良いパフォーマンスを発揮します。

観察された挙動

温度	結果
0.5	推論性能の低下
1.0	安定したベースライン
1.2 to 1.5	最良のコーディングパフォーマンス

これは一般的なアドバイスに反します。

なぜここで高い温度が有効なのか

仮説：

学習分布は探索を優先する
推論モードは多様性に依存する
モデルは明示的なChain-of-Thought制御の欠如を補償する

結果：

高い温度は解決策の探索空間を改善する

Gemmaのエージェント型コーディング設定

推奨設定：

temperature = 1.2
top_p = 0.95
top_k = 65
penalties = 0.0

重要

従来の「コードには低い温度」のルールを盲目的に適用しないでください。

Gemmaは例外です。

推論モードとエージェントシステム

QwenとGemmaの両方が推論モードをサポートしています。

なぜこれが重要か

エージェントループには以下が必要です：

中間推論
エラーリカバリ
マルチステップ計画

実用的なルール

以下の場合は常に推論モードを有効にしてください：

コーディングエージェント
ツールの使用
マルチステップタスク

使用ケースによるパラメータ戦略

コーディングエージェント

決定論性を優先
ペナルティを最小化
安定したサンプリング

推論エージェント

中程度の温度
探索を許容
構造を保持

ツール呼び出し

厳格なフォーマット
低ランダム性
一貫したトークンパターン

スキーマとJSONツールはロジットとは独立しており、これらのサンプリングルールをOllamaとQwen3用構造化出力パターンと組み合わせることで、バリデーターがより少ないリトライで済むようになります。

ベンダーデフォルト vs 現実

ベンダーデフォルトは：

安全
汎用的
最適化されていない

コミュニティの知見はしばしば以下を示します：

より良いパフォーマンス
タスク固有のチューニング
アーキテクチャを意識した調整

例

Gemma：

公式：ガイダンスなし
コミュニティ：高い温度がコーディングを改善

Qwen：

公式：一貫性のないセクション
コミュニティ：標準化された値が収束

実用的なデプロイメントノート

並行処理下では、キューイングとメモリ分割はサンプリングと同様にリトライと相互作用します—上記のプリセットと併せてOllamaが並列リクエストを処理する方法を参照してください。

Ollama

両方のファミリーで良好に動作
GPU互換性を確認
デフォルトはリファレンスと異なる場合あり

vLLM

高度なサンプリングをサポート
本番環境で安定
明示的なパラメータを使用

llama.cpp

サンプリングの順序付けが必要
モダンなモデルには常にjinjaを有効化
誤ったサンプリングチェーンは出力品質を低下させる

主な取りまとめ

普遍的なパラメータセットは存在しない
アーキテクチャがモデルサイズよりも重要
エージェントシステムはチャットとは異なるチューニングを必要とする
コミュニティベンチマークはしばしばベンダーより先行している

最終的な意見

多くのパラメータガイドは時代遅れです。

それらは以下を前提としています：

チャット利用
コードには低い温度
静的な構成

モダンなモデルはこれらの前提を破ります。

エージェントシステムを構築している場合：

推論チューニングをファーストクラスのシステム設計問題として扱え

単なる設定ファイルではない。

今後の方向性

このリファレンスは以下へと発展していきます：

モデル別の深掘り
エージェント固有の設定
ベンチマークに裏打ちされたチューニング

なぜなら：

推論こそがモデルの能力をシステムパフォーマンスに変える場所だから

TLDR リファレンステーブル - すべてのモデル（エージェント用デフォルト）

「エージェント型推論」とは何か

核心的な変化

Qwen 3.6 のチューニング

DenseとMoEの違いは重要

Dense (27B)

MoE (35B-A3B)

なぜこれが重要か

Qwenのエージェント型コーディング設定

正しい設定

なぜ低い温度が有効なのか

Gemma 4 のチューニング

公式デフォルトの欠如

直感に反する発見

観察された挙動

なぜここで高い温度が有効なのか

Gemmaのエージェント型コーディング設定

重要

推論モードとエージェントシステム

なぜこれが重要か

実用的なルール

使用ケースによるパラメータ戦略

コーディングエージェント

推論エージェント

ツール呼び出し

ベンダーデフォルト vs 現実

例

実用的なデプロイメントノート

Ollama

vLLM

llama.cpp

主な取りまとめ

最終的な意見

今後の方向性

購読する