Was macht ein LLM für Cognee geeignet?

Cognee erfordert LLMs mit niedrigen Halluzinationsraten (ideal unter 40 %) und ausreichender Parameteranzahl (32B+ empfohlen) für eine qualitativ hochwertige Entitätsextraktion, Beziehungsinferenz und Metadatengenerierung. Modelle mit hohen Halluzinationsraten (90 %+) erzeugen verrauschte Graphen, die die Abrufqualität beeinträchtigen.

Welches LLM sollte ich für meine Hardware-Konfiguration wählen?

Für High-End-Setups (32GB+ VRAM) empfehlen sich Deepseek-r1:32b oder Llama3.3-70b. Für Mittelklasse-Setups (16-24GB VRAM) bietet Devstral Small 2 geringe Halluzinationsraten und Fokus auf Codierung. Für Budget-Setups (12-16GB VRAM) ist Qwen3:14b aufgrund deutlich niedrigerer Halluzinationsraten bevorzugenswert gegenüber gpt-oss:20b.

Warum sollte man gpt-oss:20b für Cognee vermeiden?

Trotz schneller Inferenzgeschwindigkeiten hat gpt-oss:20b eine Halluzinationsrate von 91,4 %, die die Knoten und Kanten des Graphen stark verunreinigt und es für Produktionspipelines von Cognee ungeeignet macht, bei denen die Graphqualität entscheidend ist.

Welche Embedding-Modelle funktionieren mit Cognee auf Ollama?

Beliebte Optionen sind nomic-embed-text (768 Dims, 2k Kontext), jina-embeddings-v2-base-en (768 Dims, 8k Kontext) und Qwen3-Embedding-Modelle (1024-4096 Dims, 32K Kontext). Stellen Sie sicher, dass die Embedding-Dimensionen mit Ihrer Vektor-Speicher-Konfiguration übereinstimmen.

Die richtige LLM-Auswahl für Cognee: Lokale Ollama-Konfiguration

Gedanken zu LLMs für selbstgehostetes Cognee

Inhaltsverzeichnis

Die Auswahl des besten LLM für Cognee erfordert eine Balance zwischen Graphenbauqualität, Halluzinationsraten und Hardware-Beschränkungen. Cognee glänzt mit größeren, halluzinationsarmen Modellen (32B+) über Ollama, aber mittlere Optionen eignen sich für leichtere Setups.

lecture-in-the-library

Wichtige Cognee-Anforderungen

Cognee setzt auf den LLM für Entitätserkennung, Beziehungsableitung und Metadaten-Generierung. Modelle unter 32B erzeugen oft verrauschte Graphen, während hohe Halluzinationen (z. B. 90%+) Knoten und Kanten verschmutzen und die Abfrage verschlechtern. Die offiziellen Dokumente empfehlen deepseek-r1:32b oder llama3.3-70b-instruct-q3_K_M in Kombination mit Mistral-Embeddings.

Modellvergleichstabelle

Modell	Parameter	Halluzination (SimpleQA/Schätzung)	VRAM (quantisiert)	Cognee-Stärken	Schwächen
gpt-oss:20b	20B	91,4%	~16GB	Schnelle Inferenz, Tool-Calling	Starke Graphenrauschen
Qwen3:14b	14B	~40-45%	~12-14GB	Effizient auf bescheidener Hardware	Begrenzte Tiefe für Graphen
Devstral Small 2	24B	~8-10%	~18-20GB	Fokus auf Programmierung, saubere Entitäten	Höherer VRAM als Qwen3
Llama3.3-70b	70B	~30-40%	~40GB+	Optimale Graphenqualität	Hoher Ressourcenbedarf
Deepseek-r1:32b	32B	Niedrig (empfohlen)	~24-32GB	Bestes für Schlussfolgerungen/Graphen	Langsamer auf Consumer-GPUs

Die Daten wurden aus Cognee-Dokumenten, Modellkarten und Benchmarks synthetisiert. Die Halluzinationsdaten scheinen zwar ungewöhnlich, könnten aber nicht weit daneben liegen…

Empfehlungen nach Hardware

High-End (32GB+ VRAM): Deepseek-r1:32b oder Llama3.3-70b. Diese liefern die saubersten Graphen gemäß Cognee-Richtlinien.
Mittelklasse (16-24GB VRAM): Devstral Small 2. Geringe Halluzinationen und Programmierstärke eignen sich für strukturierte Speicheraufgaben.
Budget (12-16GB VRAM): Qwen3:14b statt gpt-oss:20b - vermeiden Sie die 91%-Halluzinationsfalle.
Es gibt Hinweise, dass die Fehler von gpt-oss:20b sich bei ungefilterter Graphenerstellung verstärken. Allerdings ist die Inferenzgeschwindigkeit auf meinem GPU 2- bis 3-mal schneller….

Schnelle Ollama + Cognee-Einrichtung

# 1. Modell herunterladen (z. B. Devstral)
ollama pull devstral-small-2:24b  # oder qwen3:14b, etc.

# 2. Cognee installieren
pip install "cognee[ollama]"

# 3. Umgebungsvariablen
export LLM_PROVIDER="ollama"
export LLM_MODEL="devstral-small-2:24b"
export EMBEDDING_PROVIDER="ollama"
export EMBEDDING_MODEL="nomic-embed-text"  # 768 Dims
export EMBEDDING_DIMENSIONS=768

# 4. Graph testen
cognee-cli add --file "your_data.txt" --name "test_graph"

Passen Sie die Embedding-Dimensionen (z. B. 768, 1024) in der Konfiguration und dem Vektor-Speicher an. Qwen3 Embeddings (in Cognee nicht erwiesen) könnten bei 1024-4096 Dims funktionieren, wenn Ollama unterstützt.

Priorisieren Sie halluzinationsarme Modelle für Produktions-Cognee-Pipelines - Ihre Graphen werden es Ihnen danken. Testen Sie auf Ihrer Hardware und überwachen Sie die Graphenkohärenz.

Embedding-Modelle

Darüber habe ich nicht viel nachgedacht, aber hier ist eine Tabelle, die ich für zukünftige Referenz zusammengestellt habe

Ollama-Modell	Größe, GB	Embedding-Dimensionen	Kontextlänge
nomic-embed-text:latest	0,274	768	2k
jina-embeddings-v2-base-en:latest	0,274	768	8k
nomic-embed-text-v2-moe	0,958	768	512
qwen3-embedding:0.6b	0,639	1024	32K
qwen3-embedding:4b	2,5	2560	32K
qwen3-embedding:8b	4,7	4096	32K
avr/sfr-embedding-mistral:latest	4,4	4096	32K

Wichtige Cognee-Anforderungen

Modellvergleichstabelle

Empfehlungen nach Hardware

Schnelle Ollama + Cognee-Einrichtung

Embedding-Modelle

Nützliche Links