Quali caratteristiche rendono un LLM adatto a Cognee?

Cognee richiede LLM con tassi di allucinazione bassi (ideally sotto il 40%) e un numero sufficiente di parametri (consigliati 32B+) per una qualità elevata nell’estrazione delle entità, nell’inferenza delle relazioni e nella generazione dei metadati. I modelli con alti tassi di allucinazione (90%+) producono grafi rumorosi che degradano la qualità del recupero.

Quale LLM devo scegliere per la mia configurazione hardware?

Per le configurazioni di alto livello (32 GB+ VRAM), utilizzare Deepseek-r1:32b o Llama3.3-70b. Per le configurazioni di media gamma (16-24 GB VRAM), Devstral Small 2 offre un basso tasso di illusioni e un focus sul coding. Per le configurazioni a basso costo (12-16 GB VRAM), Qwen3:14b è preferibile rispetto a gpt-oss:20b a causa dei tassi di illusioni molto più bassi.

Perché evitare gpt-oss:20b per Cognee?

Nonostante le elevate velocità di inferenza, gpt-oss:20b presenta un tasso di hallucinazione del 91,4% che inquina in modo grave i nodi e gli archi del grafo, rendendolo inadatto ai pipeline Cognee in produzione dove la qualità del grafo è cruciale.

Quali modelli di embedding sono compatibili con Cognee su Ollama?

Le opzioni popolari includono nomic-embed-text (768 dimensioni, contesto 2k), jina-embeddings-v2-base-en (768 dimensioni, contesto 8k) e i modelli qwen3-embedding (1024-4096 dimensioni, contesto 32K). Assicurarsi che le dimensioni degli embedding corrispondano alla configurazione del proprio magazzino vettoriale.

Scegliere il LLM giusto per Cognee: Configurazione locale di Ollama

Riflessioni sui modelli LLM per Cognee autoospitati

Indice

Scegliere il miglior LLM per Cognee richiede un equilibrio tra la qualità della costruzione dei grafici, i tassi di allucinazione e le limitazioni hardware. Cognee eccelle con modelli più grandi e a bassa allucinazione (32B+) tramite Ollama, ma le opzioni di dimensioni intermedie funzionano per le configurazioni più leggere.

lecture-in-the-library

Requisiti Principali per Cognee

Cognee si basa sull’LLM per l’estrazione delle entità, l’inferenza delle relazioni e la generazione dei metadati. I modelli con meno di 32B spesso producono grafici rumorosi, mentre un’alta percentuale di allucinazione (ad esempio, 90%+) inquina i nodi e gli archi, riducendo la qualità del recupero. Le documentazioni ufficiali raccomandano deepseek-r1:32b o llama3.3-70b-instruct-q3_K_M abbinati agli embedding di Mistral.

Tabella Confronto Modelli

Modello	Parametri	Allucinazione (SimpleQA/est.)	VRAM (quantizzato)	Forze di Cognee	Debolezze
gpt-oss:20b	20B	91,4%	~16GB	Veloce inferenza, chiamata degli strumenti	Rumore grave nei grafici
Qwen3:14b	14B	~40-45%	~12-14GB	Efficienti su hardware modesto	Profondità limitata per i grafici
Devstral Small 2	24B	~8-10%	~18-20GB	Focus su codifica, entità pulite	Maggiore VRAM rispetto a Qwen3
Llama3.3-70b	70B	~30-40%	~40GB+	Qualità ottimale dei grafici	Necessità di risorse pesanti
Deepseek-r1:32b	32B	Bassa (raccomandato)	~24-32GB	Migliore per il ragionamento/grafi	Più lento sui GPU consumer

I dati sono sintetizzati dalle documentazioni di Cognee, dalle schede dei modelli e dai benchmark. I dati sull’allucinazione, anche se sembrano fuori posto, potrebbero non essere troppo lontani dalla realtà…

Raccomandazioni in Base all’Hardware

High-end (VRAM 32GB+): Deepseek-r1:32b o Llama3.3-70b. Questi producono i grafici più puliti secondo le linee guida di Cognee.
Mid-range (VRAM 16-24GB): Devstral Small 2. Bassa allucinazione e abilità di codifica si adattano bene ai compiti di memoria strutturata.
Budget (VRAM 12-16GB): Qwen3:14b invece di gpt-oss:20b - evitare i problemi di allucinazione del 91%.
Sto pensando di evitare gpt-oss:20b per Cognee; ci sono note che gli errori si amplificano nella costruzione non filtrata dei grafici. Ma la velocità di inferenza sul mio GPU è 2+ volte più veloce….

Rapido Setup Ollama + Cognee

# 1. Scarica il modello (es. Devstral)
ollama pull devstral-small-2:24b  # o qwen3:14b, ecc.

# 2. Installa Cognee
pip install "cognee[ollama]"

# 3. Variabili ambiente
export LLM_PROVIDER="ollama"
export LLM_MODEL="devstral-small-2:24b"
export EMBEDDING_PROVIDER="ollama"
export EMBEDDING_MODEL="nomic-embed-text"  # 768 dimensioni
export EMBEDDING_DIMENSIONS=768

# 4. Test del grafico
cognee-cli add --file "your_data.txt" --name "test_graph"

Assicurati che le dimensioni degli embedding (es. 768, 1024) siano coerenti tra la configurazione e il magazzino vettoriale. Qwen3 Embeddings (non verificati in Cognee) potrebbero funzionare a 1024-4096 dimensioni se supportati da Ollama.

Priorizza i modelli a bassa allucinazione per i pipeline di produzione di Cognee—i tuoi grafici te lo ringrazieranno. Testa sull’hardware e monitora la coerenza dei grafici.

Modelli di embedding

Non ho pensato molto a questo, ma ecco una tabella che ho raccolto per riferimento futuro

Modello Ollama	Dimensioni, GB	Dimensioni di embedding	Lunghezza del contesto
nomic-embed-text:latest	0,274	768	2k
jina-embeddings-v2-base-en:latest	0,274	768	8k
nomic-embed-text-v2-moe	0,958	768	512
qwen3-embedding:0.6b	0,639	1024	32K
qwen3-embedding:4b	2,5	2560	32K
qwen3-embedding:8b	4,7	4096	32K
avr/sfr-embedding-mistral:latest	4,4	4096	32K

Requisiti Principali per Cognee

Tabella Confronto Modelli

Raccomandazioni in Base all’Hardware

Rapido Setup Ollama + Cognee

Modelli di embedding

Link utili