Die richtige LLM-Auswahl für Cognee: Lokale Ollama-Konfiguration
Gedanken zu LLMs für selbstgehostetes Cognee
Die Auswahl des besten LLM für Cognee erfordert eine Balance zwischen Graphenbauqualität, Halluzinationsraten und Hardware-Beschränkungen. Cognee glänzt mit größeren, halluzinationsarmen Modellen (32B+) über Ollama, aber mittlere Optionen eignen sich für leichtere Setups.

Wichtige Cognee-Anforderungen
Cognee setzt auf den LLM für Entitätserkennung, Beziehungsableitung und Metadaten-Generierung. Modelle unter 32B erzeugen oft verrauschte Graphen, während hohe Halluzinationen (z. B. 90%+) Knoten und Kanten verschmutzen und die Abfrage verschlechtern. Die offiziellen Dokumente empfehlen deepseek-r1:32b oder llama3.3-70b-instruct-q3_K_M in Kombination mit Mistral-Embeddings.
Modellvergleichstabelle
| Modell | Parameter | Halluzination (SimpleQA/Schätzung) | VRAM (quantisiert) | Cognee-Stärken | Schwächen |
|---|---|---|---|---|---|
| gpt-oss:20b | 20B | 91,4% | ~16GB | Schnelle Inferenz, Tool-Calling | Starke Graphenrauschen |
| Qwen3:14b | 14B | ~40-45% | ~12-14GB | Effizient auf bescheidener Hardware | Begrenzte Tiefe für Graphen |
| Devstral Small 2 | 24B | ~8-10% | ~18-20GB | Fokus auf Programmierung, saubere Entitäten | Höherer VRAM als Qwen3 |
| Llama3.3-70b | 70B | ~30-40% | ~40GB+ | Optimale Graphenqualität | Hoher Ressourcenbedarf |
| Deepseek-r1:32b | 32B | Niedrig (empfohlen) | ~24-32GB | Bestes für Schlussfolgerungen/Graphen | Langsamer auf Consumer-GPUs |
Die Daten wurden aus Cognee-Dokumenten, Modellkarten und Benchmarks synthetisiert. Die Halluzinationsdaten scheinen zwar ungewöhnlich, könnten aber nicht weit daneben liegen…
Empfehlungen nach Hardware
- High-End (32GB+ VRAM): Deepseek-r1:32b oder Llama3.3-70b. Diese liefern die saubersten Graphen gemäß Cognee-Richtlinien.
- Mittelklasse (16-24GB VRAM): Devstral Small 2. Geringe Halluzinationen und Programmierstärke eignen sich für strukturierte Speicheraufgaben.
- Budget (12-16GB VRAM): Qwen3:14b statt gpt-oss:20b - vermeiden Sie die 91%-Halluzinationsfalle.
- Es gibt Hinweise, dass die Fehler von gpt-oss:20b sich bei ungefilterter Graphenerstellung verstärken. Allerdings ist die Inferenzgeschwindigkeit auf meinem GPU 2- bis 3-mal schneller….
Schnelle Ollama + Cognee-Einrichtung
# 1. Modell herunterladen (z. B. Devstral)
ollama pull devstral-small-2:24b # oder qwen3:14b, etc.
# 2. Cognee installieren
pip install "cognee[ollama]"
# 3. Umgebungsvariablen
export LLM_PROVIDER="ollama"
export LLM_MODEL="devstral-small-2:24b"
export EMBEDDING_PROVIDER="ollama"
export EMBEDDING_MODEL="nomic-embed-text" # 768 Dims
export EMBEDDING_DIMENSIONS=768
# 4. Graph testen
cognee add --file "your_data.txt" --name "test_graph"
Passen Sie die Embedding-Dimensionen (z. B. 768, 1024) in der Konfiguration und dem Vektor-Speicher an. Qwen3 Embeddings (in Cognee nicht erwiesen) könnten bei 1024-4096 Dims funktionieren, wenn Ollama unterstützt.
Priorisieren Sie halluzinationsarme Modelle für Produktions-Cognee-Pipelines - Ihre Graphen werden es Ihnen danken. Testen Sie auf Ihrer Hardware und überwachen Sie die Graphenkohärenz.
Embedding-Modelle
Darüber habe ich nicht viel nachgedacht, aber hier ist eine Tabelle, die ich für zukünftige Referenz zusammengestellt habe
| Ollama-Modell | Größe, GB | Embedding-Dimensionen | Kontextlänge |
|---|---|---|---|
| nomic-embed-text:latest | 0,274 | 768 | 2k |
| jina-embeddings-v2-base-en:latest | 0,274 | 768 | 8k |
| nomic-embed-text-v2-moe | 0,958 | 768 | 512 |
| qwen3-embedding:0.6b | 0,639 | 1024 | 32K |
| qwen3-embedding:4b | 2,5 | 2560 | 32K |
| qwen3-embedding:8b | 4,7 | 4096 | 32K |
| avr/sfr-embedding-mistral:latest | 4,4 | 4096 | 32K |
Nützliche Links
- https://docs.cognee.ai/how_to_guides/local_models
- https://docs.cognee.ai/setup-configuration/embedding-providers
- https://arxiv.org/html/2508.10925v1
- https://github.com/vectara/hallucination-leaderboard
- https://ollama.com/library/nomic-embed-text-v2-moe
- Qwen3 Embedding
- Wie man Ollama-Modelle auf eine andere Festplatte oder einen anderen Ordner verschiebt
- Ollama-Cheatsheet