Referencja parametrów wnioskowania dla agentycznych LLM w przypadku Qwen i Gemma
Referencje dotyczące dostrojenia agencji LLM
Ta strona stanowi praktyczny przewodnik do dostrajania wnioskowania agenticznego LLM (temperatura, top_p, top_k, kary i ich wzajemne oddziaływania w wieloetapowych przepływach pracy oraz w scenariuszach intensywnie wykorzystujących narzędzia).
Dopełnia ona szerszy centrum inżynierii wydajności LLM i najlepiej koresponduje z jasnym przeglądem hostingu i serwowania LLM—przepustowość i harmonogramowanie nadal dominują, gdy model jest ograniczony zasobami, ale niestabilne pobieranie próbek (sampling) powoduje ponowne próby i zużywa tokeny wyjściowe jeszcze zanim dojdzie do przeciążenia GPU.
Ta strona konsoliduje:
- zalecane przez producentów parametry
- domyślne wartości wbudowane w GGUF i API
- praktyczne ustalenia społeczności
- optymalizacje przepływów pracy agenticznych
Obecnie skupia się na:
- Qwen 3.6 (gęsty i MoE)
- Gemma 4 (gęsty i MoE)
Jeśli korzystasz z agentów terminalowych, takich jak OpenCode, łącz ten przewodnik z zachowaniem lokalnych LLM w OpenCode, aby wyniki na poziomie obciążenia i domyślne ustawienia pobierania próbek pozostawały ze sobą spójne.
Cel jest prosty:
Zapewnić jedno miejsce do konfiguracji modeli dla pętli agenticznych, kodowania i wieloetapowego wnioskowania.
Tabela referencyjna TLDR - Wszystkie modele (domyślne wartości agenticzne)
| Model | Tryb | temp | top_p | top_k | presence_penalty |
|---|---|---|---|---|---|
| Qwen 3.5 27B | myślenie ogólny | 1.0 | 0.95 | 20 | 0.0 |
| Qwen 3.5 27B | kodowanie | 0.6 | 0.95 | 20 | 0.0 |
| Qwen 3.5 35B MoE | myślenie | 1.0 | 0.95 | 20 | 1.5 |
| Qwen 3.5 35B MoE | kodowanie | 0.6 | 0.95 | 20 | 0.0 |
| Gemma 4 31B | ogólny | 1.0 | 0.95 | 64 | 0.0 |
| Gemma 4 31B | kodowanie | 1.2 | 0.95 | 65 | 0.0 |
| Gemma 4 26B MoE | ogólny | 1.0 | 0.95 | 64 | 0.0 |
| Gemma 4 26B MoE | kodowanie | 1.2 | 0.95 | 65 | 0.0 |
Co tak naprawdę oznacza “wnioskowanie agenticzne”
Większość przewodników dotyczących parametrów zakłada:
- czat
- jednorazowe uzupełnienie (single-shot completion)
- interakcję z człowiekiem
Systemy agenticzne są inne.
Wymagają one:
- wnioskowania wieloetapowego
- wywoływania narzędzi (tool calling)
- spójnych wyników
- niskiego propagowania błędów
Zmienia to priorytety dostrajania.
Podstawowa zmiana
| Przypadek użycia | Priorytet |
|---|---|
| Czat | jakość języka naturalnego |
| Twórczy | różnorodność |
| Agentic | spójność + stabilność wnioskowania |
Dostrajanie Qwen 3.6
Różnica między Dense a MoE ma znaczenie
Qwen to jedna z nielicznych rodzin modeli, gdzie:
MoE wymaga innych kar
Gęsty (Dense, 27B)
- stabilny
- przewidywalny
- bez złożoności routingu
Zalecane:
- presence_penalty = 0.0
MoE (35B-A3B)
- routing ekspertów na token
- ryzyko pętli powtórzeń
Zalecane:
- presence_penalty = 1.5 (ogólne)
- 0.0 dla kodowania
Dlaczego to ma znaczenie
Modele MoE mogą utknąć w ponownym używaniu tych samych ekspertów.
Kara za obecność (presence penalty) pomaga:
- urozmaicać ścieżki tokenów
- poprawiać eksplorację wnioskowania
Konfiguracja kodowania agenticznego w Qwen
Tutaj większość ludzi popełnia błędy.
Poprawna konfiguracja
- temperatura = 0.6
- top_p = 0.95
- top_k = 20
- presence_penalty = 0.0
Dlaczego niska temperatura działa
Agenci kodujące potrzebują:
- deterministycznych wyników
- powtarzalnych wywołań narzędzi
- stabilnego formatowania
Wyższa temperatura:
- psuje JSON
- wprowadza zhalucjonowane API
- zwiększa liczbę ponownych prób
Dostrajanie Gemma 4
Gemma zachowuje się inaczej.
Brak oficjalnych wartości domyślnych
- karty modeli są puste
- konfiguracje są implikowane
- prawdziwe dostrajanie pochodzi z:
- Google AI Studio
- domyślnych wartości GGUF
- benchmarków społeczności
Przeciwintuicyjne ustalenie
Gemma 4 działa lepiej przy wyższej temperaturze.
Obserwowane zachowanie
| Temp | Wynik |
|---|---|
| 0.5 | słabe wnioskowanie |
| 1.0 | stabilna baza |
| 1.2 do 1.5 | najlepsza wydajność kodowania |
To sprzeciwia się standardowym radom.
Dlaczego wysoka temperatura działa tutaj
Hipoteza:
- dystrybucja treningowa faworyzuje eksplorację
- tryb wnioskowania zależy od różnorodności
- model kompensuje brak wyraźnej kontroli łańcucha myślenia (chain-of-thought)
Rezultat:
wyższa temperatura poprawia przestrzeń poszukiwań rozwiązań
Konfiguracja kodowania agenticznego w Gemma
Zalecane:
- temperatura = 1.2
- top_p = 0.95
- top_k = 65
- kary = 0.0
Ważne
Nie stosuj ślepo tradycyjnej zasady “niska temperatura dla kodu”.
Gemma jest wyjątkiem.
Tryb myślenia i systemy agenticzne
Zarówno Qwen, jak i Gemma obsługują tryby wnioskowania.
Dlaczego to ma znaczenie
Pętle agenticzne wymagają:
- wnioskowania pośredniego
- odzyskiwania po błędach
- planowania wieloetapowego
Praktyczna zasada
Zawsze włączaj tryb myślenia dla:
- agentów kodujących
- używania narzędzi
- zadań wieloetapowych
Strategia parametrów w zależności od przypadku użycia
Agenci kodujące
- priorytet determinizmu
- minimalizacja kar
- stabilne pobieranie próbek
Agenci wnioskujące
- umiarkowana temperatura
- pozwolenie na eksplorację
- zachowanie struktury
Wywoływanie narzędzi (Tool calling)
- ścisłe formatowanie
- niska losowość
- spójne wzorce tokenów
Schematy i narzędzia JSON są ortogonalne do logitów; łącz te reguły pobierania próbek z wzorcami strukturalnego wyjścia dla Ollama i Qwen3, aby walidatory widziały mniej ponownych prób.
Domyślne wartości producentów vs rzeczywistość
Domyślne wartości producentów są:
- bezpieczne
- generyczne
- nieoptymalne
Ustalenia społeczności często pokazują:
- lepszą wydajność
- dostrajanie specyficzne dla zadania
- dostosowania uwzględniające architekturę
Przykład
Gemma:
- oficjalnie: brak wytycznych
- społeczność: wysoka temperatura poprawia kodowanie
Qwen:
- oficjalnie: niespójne sekcje
- społeczność: standaryzowane wartości konwergują
Praktyczne uwagi dotyczące wdrożenia
W warunkach współbieżności kolejki i podziały pamięci oddziałują z ponownymi próbami tak samo, jak pobieranie próbek—przeczytaj jak Ollama obsługuje żądania równoległe wraz z powyższymi presetami.
Ollama
- działa dobrze dla obu rodzin
- zweryfikuj zgodność GPU
- wartości domyślne mogą różnić się od referencyjnych
vLLM
- obsługuje zaawansowane pobieranie próbek
- stabilne w produkcji
- używaj jawnych parametrów
llama.cpp
- wymaga określonej kolejności samplerów
- zawsze włączaj jinja dla nowoczesnych modeli
- nieprawidłowy łańcuch samplerów obniża jakość wyjścia
Kluczowe wnioski
- nie ma uniwersalnego zestawu parametrów
- architektura ma większe znaczenie niż rozmiar modelu
- systemy agenticzne wymagają innego dostrajania niż czat
- benchmarki społeczności są często krok przed producentami
Ostateczna opinia
Większość przewodników dotyczących parametrów jest przestarzała.
Zakładają one:
- użycie w czacie
- niską temperaturę dla kodu
- statyczne konfiguracje
Nowoczesne modele łamią te założenia.
Jeśli budujesz systemy agenticzne:
traktuj dostrajanie wnioskowania jako problem projektowy systemu najwyższej klasy
A nie jako plik konfiguracyjny.
Przyszły kierunek
Ten przewodnik ewoluować będzie w:
- szczegółowe analizy poszczególnych modeli
- konfiguracje specyficzne dla agentów
- dostrajanie oparte na benchmarkach
Ponieważ:
wnioskowanie to miejsce, gdzie możliwości modelu stają się wydajnością systemu