Wybór odpowiedniego LLM dla Cognee: lokalna konfiguracja Ollama

Refleksje nad LLM dla samowystarczalnego Cognee

Page content

Wybór najlepszego LLM dla Cognee wymaga balansowania jakości budowania grafów, poziomu halucynacji i ograniczeń sprzętowych.
Cognee wyróżnia się w przypadku większych modeli o niskim poziomie halucynacji (32B+) za pomocą Ollama, ale opcje średniego rozmiaru działają dobrze w przypadku prostszych konfiguracji.

lecture-in-the-library

Kluczowe wymagania dla Cognee

Cognee opiera się na LLM do ekstrakcji jednostek, wnioskowania relacji i generowania metadanych. Modele poniżej 32B często generują szumowe grafy, podczas gdy wysoki poziom halucynacji (np. 90%+) zanieczyszcza węzły i krawędzie, pogarszając odzyskiwanie danych. Dokumentacja oficjalna zaleca deepseek-r1:32b lub llama3.3-70b-instruct-q3_K_M w parze z wektorami z modelu Mistral.

Tabela porównania modeli

Model Parametry Halucynacje (SimpleQA/est.) VRAM (skwantyzowane) Wady Cognee Zalety
gpt-oss:20b 20B 91,4% ~16 GB Szybkie wnioskowanie, wywoływanie narzędzi Wysoki poziom szumu w grafach
Qwen3:14b 14B ~40-45% ~12-14 GB Efektywne na niewielkim sprzęcie Ograniczona głębia dla grafów
Devstral Small 2 24B ~8-10% ~18-20 GB Skupienie na kodowaniu, czyste jednostki Większy zapotrzebowanie na VRAM niż Qwen3
Llama3.3-70b 70B ~30-40% ~40 GB+ Najlepsza jakość grafów Wysokie wymagania sprzętowe
Deepseek-r1:32b 32B Niski (rekomendowany) ~24-32 GB Najlepszy dla wnioskowania i grafów Wolniejszy na konsumenckich GPU

Dane zostały zszyte z dokumentacji Cognee, kart modeli i testów, poziom halucynacji, choć wygląda na niezgodny, może nie być zbyt daleki od rzeczywistości…

Rekomendacje według sprzętu

  • Wysokiej klasy (32 GB+ VRAM): Deepseek-r1:32b lub Llama3.3-70b. Te modele dają najczystsze grafy zgodnie z wskazówkami Cognee.
  • Średniego zakresu (16-24 GB VRAM): Devstral Small 2. Niski poziom halucynacji i zaawansowane umiejętności kodowania nadają się do zadań pamięci strukturalnej.
  • Niski budżet (12-16 GB VRAM): Qwen3:14b zamiast gpt-oss:20b – unikaj pułapek z 91% halucynacjami.
  • Rozważanie unikania gpt-oss:20b dla Cognee; są notatki, że jego błędy powielają się w niezfiltrowanej konstrukcji grafów. Jednak prędkość wnioskowania na moim GPU jest 2+ razy większa…

Szybka konfiguracja Ollama + Cognee

# 1. Pobierz model (np. Devstral)
ollama pull devstral-small-2:24b  # lub qwen3:14b itp.

# 2. Zainstaluj Cognee
pip install "cognee[ollama]"

# 3. Zmienne środowiskowe
export LLM_PROVIDER="ollama"
export LLM_MODEL="devstral-small-2:24b"
export EMBEDDING_PROVIDER="ollama"
export EMBEDDING_MODEL="nomic-embed-text"  # 768 wymiarów
export EMBEDDING_DIMENSIONS=768

# 4. Test grafu
cognee add --file "your_data.txt" --name "test_graph"

Ujednolicć wymiary wektorów (np. 768, 1024) w konfiguracji i magazynie wektorów. Qwen3 Embeddings (niezbadane w Cognee) mogą działać w wymiarach 1024-4096, jeśli są obsługiwane przez Ollama.

Dla produkcyjnych potoków Cognee priorytetyzuj modele o niskim poziomie halucynacji – twoje grafy będą ci za to wdzięczne.
Przetestuj na swoim sprzęcie i monitoruj spójność grafów.

Modele wektorów

Nie zastanawiałem się nad tym bardzo, ale tutaj jest tabela, którą przygotowałem, dla przyszłych odniesień.

Model Ollama Wielkość, GB Wymiary wektorów Długość kontekstu
nomic-embed-text:latest 0,274 768 2k
jina-embeddings-v2-base-en:latest 0,274 768 8k
nomic-embed-text-v2-moe 0,958 768 512
qwen3-embedding:0.6b 0,639 1024 32K
qwen3-embedding:4b 2,5 2560 32K
qwen3-embedding:8b 4,7 4096 32K
avr/sfr-embedding-mistral:latest 4,4 4096 32K

Przydatne linki