Co czyni LLM odpowiednim do użycia w Cognee?

Cognee wymaga modeli LLM o niskich stawkach halucynacji (ideally pod 40%) i wystarczającej liczbie parametrów (rekomendowana liczba to 32B i więcej) w celu uzyskania wysokiej jakości ekstrakcji encji, wnioskowania relacji oraz generowania metadanych. Modele o wysokich stawkach halucynacji (powyżej 90%) generują szumowe grafy, które pogarszają jakość odzyskiwania.

Który model LLM powinienem wybrać dla swojej konfiguracji sprzętu?

Dla zaawansowanych konfiguracji (32 GB+ VRAM) zaleca się użycie Deepseek-r1:32b lub Llama3.3-70b. Dla średnich konfiguracji (16–24 GB VRAM) Devstral Small 2 oferuje niski poziom halucynacji i skupienie na kodowaniu. Dla konfiguracji o niskim budżecie (12–16 GB VRAM) Qwen3:14b jest wyróżnione nad gpt-oss:20b ze względu na znacznie niższe stopy halucynacji.

Dlaczego unikać gpt-oss:20b w przypadku Cognee?

Mimo szybkich prędkości wnioskowania, model gpt-oss:20b ma 91,4% stopień halucynacji, który znacząco zanieczyszcza węzły i krawędzie grafu, czyniąc go niewygodnym do użytku w produkcyjnych potokach Cognee, gdzie jakość grafu jest kluczowa.

Które modele osadzania działają z Cognee na Ollama?

Popularne opcje to nomic-embed-text (768 wymiarów, 2k kontekst), jina-embeddings-v2-base-en (768 wymiarów, 8k kontekst) oraz modele qwen3-embedding (1024–4096 wymiarów, 32K kontekst). Upewnij się, że wymiary osadzeń są zgodne z konfiguracją swojego magazynu wektorów.

Wybór odpowiedniego LLM dla Cognee: lokalna konfiguracja Ollama

Refleksje nad LLM dla samowystarczalnego Cognee

Page content

Wybór najlepszego LLM dla Cognee wymaga balansowania jakości budowania grafów, poziomu halucynacji i ograniczeń sprzętowych.
Cognee wyróżnia się w przypadku większych modeli o niskim poziomie halucynacji (32B+) za pomocą Ollama, ale opcje średniego rozmiaru działają dobrze w przypadku prostszych konfiguracji.

lecture-in-the-library

Kluczowe wymagania dla Cognee

Cognee opiera się na LLM do ekstrakcji jednostek, wnioskowania relacji i generowania metadanych. Modele poniżej 32B często generują szumowe grafy, podczas gdy wysoki poziom halucynacji (np. 90%+) zanieczyszcza węzły i krawędzie, pogarszając odzyskiwanie danych. Dokumentacja oficjalna zaleca deepseek-r1:32b lub llama3.3-70b-instruct-q3_K_M w parze z wektorami z modelu Mistral.

Tabela porównania modeli

Model	Parametry	Halucynacje (SimpleQA/est.)	VRAM (skwantyzowane)	Wady Cognee	Zalety
gpt-oss:20b	20B	91,4%	~16 GB	Szybkie wnioskowanie, wywoływanie narzędzi	Wysoki poziom szumu w grafach
Qwen3:14b	14B	~40-45%	~12-14 GB	Efektywne na niewielkim sprzęcie	Ograniczona głębia dla grafów
Devstral Small 2	24B	~8-10%	~18-20 GB	Skupienie na kodowaniu, czyste jednostki	Większy zapotrzebowanie na VRAM niż Qwen3
Llama3.3-70b	70B	~30-40%	~40 GB+	Najlepsza jakość grafów	Wysokie wymagania sprzętowe
Deepseek-r1:32b	32B	Niski (rekomendowany)	~24-32 GB	Najlepszy dla wnioskowania i grafów	Wolniejszy na konsumenckich GPU

Dane zostały zszyte z dokumentacji Cognee, kart modeli i testów, poziom halucynacji, choć wygląda na niezgodny, może nie być zbyt daleki od rzeczywistości…

Rekomendacje według sprzętu

Wysokiej klasy (32 GB+ VRAM): Deepseek-r1:32b lub Llama3.3-70b. Te modele dają najczystsze grafy zgodnie z wskazówkami Cognee.
Średniego zakresu (16-24 GB VRAM): Devstral Small 2. Niski poziom halucynacji i zaawansowane umiejętności kodowania nadają się do zadań pamięci strukturalnej.
Niski budżet (12-16 GB VRAM): Qwen3:14b zamiast gpt-oss:20b – unikaj pułapek z 91% halucynacjami.
Rozważanie unikania gpt-oss:20b dla Cognee; są notatki, że jego błędy powielają się w niezfiltrowanej konstrukcji grafów. Jednak prędkość wnioskowania na moim GPU jest 2+ razy większa…

Szybka konfiguracja Ollama + Cognee

# 1. Pobierz model (np. Devstral)
ollama pull devstral-small-2:24b  # lub qwen3:14b itp.

# 2. Zainstaluj Cognee
pip install "cognee[ollama]"

# 3. Zmienne środowiskowe
export LLM_PROVIDER="ollama"
export LLM_MODEL="devstral-small-2:24b"
export EMBEDDING_PROVIDER="ollama"
export EMBEDDING_MODEL="nomic-embed-text"  # 768 wymiarów
export EMBEDDING_DIMENSIONS=768

# 4. Test grafu
cognee-cli add --file "your_data.txt" --name "test_graph"

Ujednolicć wymiary wektorów (np. 768, 1024) w konfiguracji i magazynie wektorów. Qwen3 Embeddings (niezbadane w Cognee) mogą działać w wymiarach 1024-4096, jeśli są obsługiwane przez Ollama.

Dla produkcyjnych potoków Cognee priorytetyzuj modele o niskim poziomie halucynacji – twoje grafy będą ci za to wdzięczne.
Przetestuj na swoim sprzęcie i monitoruj spójność grafów.

Modele wektorów

Nie zastanawiałem się nad tym bardzo, ale tutaj jest tabela, którą przygotowałem, dla przyszłych odniesień.

Model Ollama	Wielkość, GB	Wymiary wektorów	Długość kontekstu
nomic-embed-text:latest	0,274	768	2k
jina-embeddings-v2-base-en:latest	0,274	768	8k
nomic-embed-text-v2-moe	0,958	768	512
qwen3-embedding:0.6b	0,639	1024	32K
qwen3-embedding:4b	2,5	2560	32K
qwen3-embedding:8b	4,7	4096	32K
avr/sfr-embedding-mistral:latest	4,4	4096	32K

Kluczowe wymagania dla Cognee

Tabela porównania modeli

Rekomendacje według sprzętu

Szybka konfiguracja Ollama + Cognee

Modele wektorów

Przydatne linki