Scegliere il LLM giusto per Cognee: Configurazione locale di Ollama
Riflessioni sui modelli LLM per Cognee autoospitati
Scegliere il miglior LLM per Cognee richiede un equilibrio tra la qualità della costruzione dei grafici, i tassi di allucinazione e le limitazioni hardware. Cognee eccelle con modelli più grandi e a bassa allucinazione (32B+) tramite Ollama, ma le opzioni di dimensioni intermedie funzionano per le configurazioni più leggere.

Requisiti Principali per Cognee
Cognee si basa sull’LLM per l’estrazione delle entità, l’inferenza delle relazioni e la generazione dei metadati. I modelli con meno di 32B spesso producono grafici rumorosi, mentre un’alta percentuale di allucinazione (ad esempio, 90%+) inquina i nodi e gli archi, riducendo la qualità del recupero. Le documentazioni ufficiali raccomandano deepseek-r1:32b o llama3.3-70b-instruct-q3_K_M abbinati agli embedding di Mistral.
Tabella Confronto Modelli
| Modello | Parametri | Allucinazione (SimpleQA/est.) | VRAM (quantizzato) | Forze di Cognee | Debolezze |
|---|---|---|---|---|---|
| gpt-oss:20b | 20B | 91,4% | ~16GB | Veloce inferenza, chiamata degli strumenti | Rumore grave nei grafici |
| Qwen3:14b | 14B | ~40-45% | ~12-14GB | Efficienti su hardware modesto | Profondità limitata per i grafici |
| Devstral Small 2 | 24B | ~8-10% | ~18-20GB | Focus su codifica, entità pulite | Maggiore VRAM rispetto a Qwen3 |
| Llama3.3-70b | 70B | ~30-40% | ~40GB+ | Qualità ottimale dei grafici | Necessità di risorse pesanti |
| Deepseek-r1:32b | 32B | Bassa (raccomandato) | ~24-32GB | Migliore per il ragionamento/grafi | Più lento sui GPU consumer |
I dati sono sintetizzati dalle documentazioni di Cognee, dalle schede dei modelli e dai benchmark. I dati sull’allucinazione, anche se sembrano fuori posto, potrebbero non essere troppo lontani dalla realtà…
Raccomandazioni in Base all’Hardware
- High-end (VRAM 32GB+): Deepseek-r1:32b o Llama3.3-70b. Questi producono i grafici più puliti secondo le linee guida di Cognee.
- Mid-range (VRAM 16-24GB): Devstral Small 2. Bassa allucinazione e abilità di codifica si adattano bene ai compiti di memoria strutturata.
- Budget (VRAM 12-16GB): Qwen3:14b invece di gpt-oss:20b - evitare i problemi di allucinazione del 91%.
- Sto pensando di evitare gpt-oss:20b per Cognee; ci sono note che gli errori si amplificano nella costruzione non filtrata dei grafici. Ma la velocità di inferenza sul mio GPU è 2+ volte più veloce….
Rapido Setup Ollama + Cognee
# 1. Scarica il modello (es. Devstral)
ollama pull devstral-small-2:24b # o qwen3:14b, ecc.
# 2. Installa Cognee
pip install "cognee[ollama]"
# 3. Variabili ambiente
export LLM_PROVIDER="ollama"
export LLM_MODEL="devstral-small-2:24b"
export EMBEDDING_PROVIDER="ollama"
export EMBEDDING_MODEL="nomic-embed-text" # 768 dimensioni
export EMBEDDING_DIMENSIONS=768
# 4. Test del grafico
cognee add --file "your_data.txt" --name "test_graph"
Assicurati che le dimensioni degli embedding (es. 768, 1024) siano coerenti tra la configurazione e il magazzino vettoriale. Qwen3 Embeddings (non verificati in Cognee) potrebbero funzionare a 1024-4096 dimensioni se supportati da Ollama.
Priorizza i modelli a bassa allucinazione per i pipeline di produzione di Cognee—i tuoi grafici te lo ringrazieranno. Testa sull’hardware e monitora la coerenza dei grafici.
Modelli di embedding
Non ho pensato molto a questo, ma ecco una tabella che ho raccolto per riferimento futuro
| Modello Ollama | Dimensioni, GB | Dimensioni di embedding | Lunghezza del contesto |
|---|---|---|---|
| nomic-embed-text:latest | 0,274 | 768 | 2k |
| jina-embeddings-v2-base-en:latest | 0,274 | 768 | 8k |
| nomic-embed-text-v2-moe | 0,958 | 768 | 512 |
| qwen3-embedding:0.6b | 0,639 | 1024 | 32K |
| qwen3-embedding:4b | 2,5 | 2560 | 32K |
| qwen3-embedding:8b | 4,7 | 4096 | 32K |
| avr/sfr-embedding-mistral:latest | 4,4 | 4096 | 32K |
Link utili
- https://docs.cognee.ai/how_to_guides/local_models
- https://docs.cognee.ai/setup-configuration/embedding-providers
- https://arxiv.org/html/2508.10925v1
- https://github.com/vectara/hallucination-leaderboard
- https://ollama.com/library/nomic-embed-text-v2-moe
- Qwen3 Embedding
- Come spostare i modelli Ollama su un diverso disco o cartella
- Ollama cheatsheet