Scegliere il LLM giusto per Cognee: Configurazione locale di Ollama

Riflessioni sui modelli LLM per Cognee autoospitati

Indice

Scegliere il miglior LLM per Cognee richiede un equilibrio tra la qualità della costruzione dei grafici, i tassi di allucinazione e le limitazioni hardware. Cognee eccelle con modelli più grandi e a bassa allucinazione (32B+) tramite Ollama, ma le opzioni di dimensioni intermedie funzionano per le configurazioni più leggere.

lecture-in-the-library

Requisiti Principali per Cognee

Cognee si basa sull’LLM per l’estrazione delle entità, l’inferenza delle relazioni e la generazione dei metadati. I modelli con meno di 32B spesso producono grafici rumorosi, mentre un’alta percentuale di allucinazione (ad esempio, 90%+) inquina i nodi e gli archi, riducendo la qualità del recupero. Le documentazioni ufficiali raccomandano deepseek-r1:32b o llama3.3-70b-instruct-q3_K_M abbinati agli embedding di Mistral.

Tabella Confronto Modelli

Modello Parametri Allucinazione (SimpleQA/est.) VRAM (quantizzato) Forze di Cognee Debolezze
gpt-oss:20b 20B 91,4% ~16GB Veloce inferenza, chiamata degli strumenti Rumore grave nei grafici
Qwen3:14b 14B ~40-45% ~12-14GB Efficienti su hardware modesto Profondità limitata per i grafici
Devstral Small 2 24B ~8-10% ~18-20GB Focus su codifica, entità pulite Maggiore VRAM rispetto a Qwen3
Llama3.3-70b 70B ~30-40% ~40GB+ Qualità ottimale dei grafici Necessità di risorse pesanti
Deepseek-r1:32b 32B Bassa (raccomandato) ~24-32GB Migliore per il ragionamento/grafi Più lento sui GPU consumer

I dati sono sintetizzati dalle documentazioni di Cognee, dalle schede dei modelli e dai benchmark. I dati sull’allucinazione, anche se sembrano fuori posto, potrebbero non essere troppo lontani dalla realtà…

Raccomandazioni in Base all’Hardware

  • High-end (VRAM 32GB+): Deepseek-r1:32b o Llama3.3-70b. Questi producono i grafici più puliti secondo le linee guida di Cognee.
  • Mid-range (VRAM 16-24GB): Devstral Small 2. Bassa allucinazione e abilità di codifica si adattano bene ai compiti di memoria strutturata.
  • Budget (VRAM 12-16GB): Qwen3:14b invece di gpt-oss:20b - evitare i problemi di allucinazione del 91%.
  • Sto pensando di evitare gpt-oss:20b per Cognee; ci sono note che gli errori si amplificano nella costruzione non filtrata dei grafici. Ma la velocità di inferenza sul mio GPU è 2+ volte più veloce….

Rapido Setup Ollama + Cognee

# 1. Scarica il modello (es. Devstral)
ollama pull devstral-small-2:24b  # o qwen3:14b, ecc.

# 2. Installa Cognee
pip install "cognee[ollama]"

# 3. Variabili ambiente
export LLM_PROVIDER="ollama"
export LLM_MODEL="devstral-small-2:24b"
export EMBEDDING_PROVIDER="ollama"
export EMBEDDING_MODEL="nomic-embed-text"  # 768 dimensioni
export EMBEDDING_DIMENSIONS=768

# 4. Test del grafico
cognee add --file "your_data.txt" --name "test_graph"

Assicurati che le dimensioni degli embedding (es. 768, 1024) siano coerenti tra la configurazione e il magazzino vettoriale. Qwen3 Embeddings (non verificati in Cognee) potrebbero funzionare a 1024-4096 dimensioni se supportati da Ollama.

Priorizza i modelli a bassa allucinazione per i pipeline di produzione di Cognee—i tuoi grafici te lo ringrazieranno. Testa sull’hardware e monitora la coerenza dei grafici.

Modelli di embedding

Non ho pensato molto a questo, ma ecco una tabella che ho raccolto per riferimento futuro

Modello Ollama Dimensioni, GB Dimensioni di embedding Lunghezza del contesto
nomic-embed-text:latest 0,274 768 2k
jina-embeddings-v2-base-en:latest 0,274 768 8k
nomic-embed-text-v2-moe 0,958 768 512
qwen3-embedding:0.6b 0,639 1024 32K
qwen3-embedding:4b 2,5 2560 32K
qwen3-embedding:8b 4,7 4096 32K
avr/sfr-embedding-mistral:latest 4,4 4096 32K