Referencja parametrów wnioskowania dla agentycznych LLM w przypadku Qwen i Gemma

Referencje dotyczące dostrojenia agencji LLM

Page content

Ta strona stanowi praktyczny przewodnik do dostrajania wnioskowania agenticznego LLM (temperatura, top_p, top_k, kary i ich wzajemne oddziaływania w wieloetapowych przepływach pracy oraz w scenariuszach intensywnie wykorzystujących narzędzia).

Dopełnia ona szerszy centrum inżynierii wydajności LLM i najlepiej koresponduje z jasnym przeglądem hostingu i serwowania LLM—przepustowość i harmonogramowanie nadal dominują, gdy model jest ograniczony zasobami, ale niestabilne pobieranie próbek (sampling) powoduje ponowne próby i zużywa tokeny wyjściowe jeszcze zanim dojdzie do przeciążenia GPU.

Ta strona konsoliduje:

  • zalecane przez producentów parametry
  • domyślne wartości wbudowane w GGUF i API
  • praktyczne ustalenia społeczności
  • optymalizacje przepływów pracy agenticznych

Obecnie skupia się na:

  • Qwen 3.6 (gęsty i MoE)
  • Gemma 4 (gęsty i MoE)

Jeśli korzystasz z agentów terminalowych, takich jak OpenCode, łącz ten przewodnik z zachowaniem lokalnych LLM w OpenCode, aby wyniki na poziomie obciążenia i domyślne ustawienia pobierania próbek pozostawały ze sobą spójne.

Cel jest prosty:

Zapewnić jedno miejsce do konfiguracji modeli dla pętli agenticznych, kodowania i wieloetapowego wnioskowania.


Tabela referencyjna TLDR - Wszystkie modele (domyślne wartości agenticzne)

Model Tryb temp top_p top_k presence_penalty
Qwen 3.5 27B myślenie ogólny 1.0 0.95 20 0.0
Qwen 3.5 27B kodowanie 0.6 0.95 20 0.0
Qwen 3.5 35B MoE myślenie 1.0 0.95 20 1.5
Qwen 3.5 35B MoE kodowanie 0.6 0.95 20 0.0
Gemma 4 31B ogólny 1.0 0.95 64 0.0
Gemma 4 31B kodowanie 1.2 0.95 65 0.0
Gemma 4 26B MoE ogólny 1.0 0.95 64 0.0
Gemma 4 26B MoE kodowanie 1.2 0.95 65 0.0

Co tak naprawdę oznacza “wnioskowanie agenticzne”

Większość przewodników dotyczących parametrów zakłada:

  • czat
  • jednorazowe uzupełnienie (single-shot completion)
  • interakcję z człowiekiem

Systemy agenticzne są inne.

Wymagają one:

  • wnioskowania wieloetapowego
  • wywoływania narzędzi (tool calling)
  • spójnych wyników
  • niskiego propagowania błędów

Zmienia to priorytety dostrajania.

Podstawowa zmiana

Przypadek użycia Priorytet
Czat jakość języka naturalnego
Twórczy różnorodność
Agentic spójność + stabilność wnioskowania

Dostrajanie Qwen 3.6

Różnica między Dense a MoE ma znaczenie

Qwen to jedna z nielicznych rodzin modeli, gdzie:

MoE wymaga innych kar

Gęsty (Dense, 27B)

  • stabilny
  • przewidywalny
  • bez złożoności routingu

Zalecane:

  • presence_penalty = 0.0

MoE (35B-A3B)

  • routing ekspertów na token
  • ryzyko pętli powtórzeń

Zalecane:

  • presence_penalty = 1.5 (ogólne)
  • 0.0 dla kodowania

Dlaczego to ma znaczenie

Modele MoE mogą utknąć w ponownym używaniu tych samych ekspertów.

Kara za obecność (presence penalty) pomaga:

  • urozmaicać ścieżki tokenów
  • poprawiać eksplorację wnioskowania

Konfiguracja kodowania agenticznego w Qwen

Tutaj większość ludzi popełnia błędy.

Poprawna konfiguracja

  • temperatura = 0.6
  • top_p = 0.95
  • top_k = 20
  • presence_penalty = 0.0

Dlaczego niska temperatura działa

Agenci kodujące potrzebują:

  • deterministycznych wyników
  • powtarzalnych wywołań narzędzi
  • stabilnego formatowania

Wyższa temperatura:

  • psuje JSON
  • wprowadza zhalucjonowane API
  • zwiększa liczbę ponownych prób

Dostrajanie Gemma 4

Gemma zachowuje się inaczej.

Brak oficjalnych wartości domyślnych

  • karty modeli są puste
  • konfiguracje są implikowane
  • prawdziwe dostrajanie pochodzi z:
    • Google AI Studio
    • domyślnych wartości GGUF
    • benchmarków społeczności

Przeciwintuicyjne ustalenie

Gemma 4 działa lepiej przy wyższej temperaturze.

Obserwowane zachowanie

Temp Wynik
0.5 słabe wnioskowanie
1.0 stabilna baza
1.2 do 1.5 najlepsza wydajność kodowania

To sprzeciwia się standardowym radom.


Dlaczego wysoka temperatura działa tutaj

Hipoteza:

  • dystrybucja treningowa faworyzuje eksplorację
  • tryb wnioskowania zależy od różnorodności
  • model kompensuje brak wyraźnej kontroli łańcucha myślenia (chain-of-thought)

Rezultat:

wyższa temperatura poprawia przestrzeń poszukiwań rozwiązań


Konfiguracja kodowania agenticznego w Gemma

Zalecane:

  • temperatura = 1.2
  • top_p = 0.95
  • top_k = 65
  • kary = 0.0

Ważne

Nie stosuj ślepo tradycyjnej zasady “niska temperatura dla kodu”.

Gemma jest wyjątkiem.


Tryb myślenia i systemy agenticzne

Zarówno Qwen, jak i Gemma obsługują tryby wnioskowania.

Dlaczego to ma znaczenie

Pętle agenticzne wymagają:

  • wnioskowania pośredniego
  • odzyskiwania po błędach
  • planowania wieloetapowego

Praktyczna zasada

Zawsze włączaj tryb myślenia dla:

  • agentów kodujących
  • używania narzędzi
  • zadań wieloetapowych

Strategia parametrów w zależności od przypadku użycia

Agenci kodujące

  • priorytet determinizmu
  • minimalizacja kar
  • stabilne pobieranie próbek

Agenci wnioskujące

  • umiarkowana temperatura
  • pozwolenie na eksplorację
  • zachowanie struktury

Wywoływanie narzędzi (Tool calling)

  • ścisłe formatowanie
  • niska losowość
  • spójne wzorce tokenów

Schematy i narzędzia JSON są ortogonalne do logitów; łącz te reguły pobierania próbek z wzorcami strukturalnego wyjścia dla Ollama i Qwen3, aby walidatory widziały mniej ponownych prób.


Domyślne wartości producentów vs rzeczywistość

Domyślne wartości producentów są:

  • bezpieczne
  • generyczne
  • nieoptymalne

Ustalenia społeczności często pokazują:

  • lepszą wydajność
  • dostrajanie specyficzne dla zadania
  • dostosowania uwzględniające architekturę

Przykład

Gemma:

  • oficjalnie: brak wytycznych
  • społeczność: wysoka temperatura poprawia kodowanie

Qwen:

  • oficjalnie: niespójne sekcje
  • społeczność: standaryzowane wartości konwergują

Praktyczne uwagi dotyczące wdrożenia

W warunkach współbieżności kolejki i podziały pamięci oddziałują z ponownymi próbami tak samo, jak pobieranie próbek—przeczytaj jak Ollama obsługuje żądania równoległe wraz z powyższymi presetami.

Ollama

  • działa dobrze dla obu rodzin
  • zweryfikuj zgodność GPU
  • wartości domyślne mogą różnić się od referencyjnych

vLLM

  • obsługuje zaawansowane pobieranie próbek
  • stabilne w produkcji
  • używaj jawnych parametrów

llama.cpp

  • wymaga określonej kolejności samplerów
  • zawsze włączaj jinja dla nowoczesnych modeli
  • nieprawidłowy łańcuch samplerów obniża jakość wyjścia

Kluczowe wnioski

  • nie ma uniwersalnego zestawu parametrów
  • architektura ma większe znaczenie niż rozmiar modelu
  • systemy agenticzne wymagają innego dostrajania niż czat
  • benchmarki społeczności są często krok przed producentami

Ostateczna opinia

Większość przewodników dotyczących parametrów jest przestarzała.

Zakładają one:

  • użycie w czacie
  • niską temperaturę dla kodu
  • statyczne konfiguracje

Nowoczesne modele łamią te założenia.

Jeśli budujesz systemy agenticzne:

traktuj dostrajanie wnioskowania jako problem projektowy systemu najwyższej klasy

A nie jako plik konfiguracyjny.


Przyszły kierunek

Ten przewodnik ewoluować będzie w:

  • szczegółowe analizy poszczególnych modeli
  • konfiguracje specyficzne dla agentów
  • dostrajanie oparte na benchmarkach

Ponieważ:

wnioskowanie to miejsce, gdzie możliwości modelu stają się wydajnością systemu

Subskrybuj

Otrzymuj nowe wpisy o systemach, infrastrukturze i inżynierii AI.