Die richtige LLM-Auswahl für Cognee: Lokale Ollama-Konfiguration

Gedanken zu LLMs für selbstgehostetes Cognee

Inhaltsverzeichnis

Die Auswahl des besten LLM für Cognee erfordert eine Balance zwischen Graphenbauqualität, Halluzinationsraten und Hardware-Beschränkungen. Cognee glänzt mit größeren, halluzinationsarmen Modellen (32B+) über Ollama, aber mittlere Optionen eignen sich für leichtere Setups.

lecture-in-the-library

Wichtige Cognee-Anforderungen

Cognee setzt auf den LLM für Entitätserkennung, Beziehungsableitung und Metadaten-Generierung. Modelle unter 32B erzeugen oft verrauschte Graphen, während hohe Halluzinationen (z. B. 90%+) Knoten und Kanten verschmutzen und die Abfrage verschlechtern. Die offiziellen Dokumente empfehlen deepseek-r1:32b oder llama3.3-70b-instruct-q3_K_M in Kombination mit Mistral-Embeddings.

Modellvergleichstabelle

Modell Parameter Halluzination (SimpleQA/Schätzung) VRAM (quantisiert) Cognee-Stärken Schwächen
gpt-oss:20b 20B 91,4% ~16GB Schnelle Inferenz, Tool-Calling Starke Graphenrauschen
Qwen3:14b 14B ~40-45% ~12-14GB Effizient auf bescheidener Hardware Begrenzte Tiefe für Graphen
Devstral Small 2 24B ~8-10% ~18-20GB Fokus auf Programmierung, saubere Entitäten Höherer VRAM als Qwen3
Llama3.3-70b 70B ~30-40% ~40GB+ Optimale Graphenqualität Hoher Ressourcenbedarf
Deepseek-r1:32b 32B Niedrig (empfohlen) ~24-32GB Bestes für Schlussfolgerungen/Graphen Langsamer auf Consumer-GPUs

Die Daten wurden aus Cognee-Dokumenten, Modellkarten und Benchmarks synthetisiert. Die Halluzinationsdaten scheinen zwar ungewöhnlich, könnten aber nicht weit daneben liegen…

Empfehlungen nach Hardware

  • High-End (32GB+ VRAM): Deepseek-r1:32b oder Llama3.3-70b. Diese liefern die saubersten Graphen gemäß Cognee-Richtlinien.
  • Mittelklasse (16-24GB VRAM): Devstral Small 2. Geringe Halluzinationen und Programmierstärke eignen sich für strukturierte Speicheraufgaben.
  • Budget (12-16GB VRAM): Qwen3:14b statt gpt-oss:20b - vermeiden Sie die 91%-Halluzinationsfalle.
  • Es gibt Hinweise, dass die Fehler von gpt-oss:20b sich bei ungefilterter Graphenerstellung verstärken. Allerdings ist die Inferenzgeschwindigkeit auf meinem GPU 2- bis 3-mal schneller….

Schnelle Ollama + Cognee-Einrichtung

# 1. Modell herunterladen (z. B. Devstral)
ollama pull devstral-small-2:24b  # oder qwen3:14b, etc.

# 2. Cognee installieren
pip install "cognee[ollama]"

# 3. Umgebungsvariablen
export LLM_PROVIDER="ollama"
export LLM_MODEL="devstral-small-2:24b"
export EMBEDDING_PROVIDER="ollama"
export EMBEDDING_MODEL="nomic-embed-text"  # 768 Dims
export EMBEDDING_DIMENSIONS=768

# 4. Graph testen
cognee add --file "your_data.txt" --name "test_graph"

Passen Sie die Embedding-Dimensionen (z. B. 768, 1024) in der Konfiguration und dem Vektor-Speicher an. Qwen3 Embeddings (in Cognee nicht erwiesen) könnten bei 1024-4096 Dims funktionieren, wenn Ollama unterstützt.

Priorisieren Sie halluzinationsarme Modelle für Produktions-Cognee-Pipelines - Ihre Graphen werden es Ihnen danken. Testen Sie auf Ihrer Hardware und überwachen Sie die Graphenkohärenz.

Embedding-Modelle

Darüber habe ich nicht viel nachgedacht, aber hier ist eine Tabelle, die ich für zukünftige Referenz zusammengestellt habe

Ollama-Modell Größe, GB Embedding-Dimensionen Kontextlänge
nomic-embed-text:latest 0,274 768 2k
jina-embeddings-v2-base-en:latest 0,274 768 8k
nomic-embed-text-v2-moe 0,958 768 512
qwen3-embedding:0.6b 0,639 1024 32K
qwen3-embedding:4b 2,5 2560 32K
qwen3-embedding:8b 4,7 4096 32K
avr/sfr-embedding-mistral:latest 4,4 4096 32K