Memilih LLM yang Tepat untuk Cognee: Pengaturan Ollama Lokal
Pikiran tentang LLM untuk Cognee yang dihosting sendiri
Memilih LLM Terbaik untuk Cognee memerlukan keseimbangan antara kualitas pembuatan graf, tingkat halusinasi, dan pembatasan perangkat keras. Cognee unggul dengan model besar berhalusinasi rendah (32B+) melalui Ollama tetapi pilihan ukuran sedang juga cocok untuk konfigurasi yang lebih ringan.

Persyaratan Utama Cognee
Cognee bergantung pada LLM untuk ekstraksi entitas, inferensi hubungan, dan pembuatan metadata. Model di bawah 32B sering menghasilkan graf yang berisik, sementara tingkat halusinasi yang tinggi (misalnya, 90%+) mengotori simpul/edge, mengurangi kualitas pencarian. Dokumen resmi merekomendasikan deepseek-r1:32b atau llama3.3-70b-instruct-q3_K_M yang dipasangkan dengan embedding Mistral.
Tabel Perbandingan Model
| Model | Parameter | Halusinasi (SimpleQA/est.) | VRAM (dikuantisasi) | Keunggulan Cognee | Kekurangan |
|---|---|---|---|---|---|
| gpt-oss:20b | 20B | 91,4% | ~16GB | Inferensi cepat, pemanggilan alat | Gangguan graf yang parah |
| Qwen3:14b | 14B | ~40-45% | ~12-14GB | Efisien pada perangkat keras sedang | Kedalaman terbatas untuk graf |
| Devstral Small 2 | 24B | ~8-10% | ~18-20GB | Fokus pada pemrograman, entitas bersih | VRAM lebih tinggi daripada Qwen3 |
| Llama3.3-70b | 70B | ~30-40% | ~40GB+ | Kualitas graf optimal | Kebutuhan sumber daya berat |
| Deepseek-r1:32b | 32B | Rendah (direkomendasikan) | ~24-32GB | Terbaik untuk penalaran/graf | Lebih lambat pada GPU konsumen |
Data disintesis dari dokumen Cognee, kartu model, dan benchmark, tingkat halusinasi meskipun tampak tidak wajar, mungkin tidak jauh dari kebenaran…
Rekomendasi Berdasarkan Perangkat Keras
- High-end (VRAM 32GB+): Deepseek-r1:32b atau Llama3.3-70b. Model ini menghasilkan graf paling bersih sesuai panduan Cognee.
- Mid-range (VRAM 16-24GB): Devstral Small 2. Halusinasi rendah dan keahlian pemrograman cocok untuk tugas memori terstruktur.
- Budget (VRAM 12-16GB): Qwen3:14b daripada gpt-oss:20b - hindari risiko halusinasi 91%.
- Berpikir untuk menghindari gpt-oss:20b untuk Cognee; ada catatan bahwa kesalahan model ini memperparah dalam pembuatan graf yang tidak terfilter. Namun, kecepatan inferensi pada GPU saya 2+ kali lebih cepat….
Setup Cepat Ollama + Cognee
# 1. Unduh model (misalnya, Devstral)
ollama pull devstral-small-2:24b # atau qwen3:14b, dll.
# 2. Instal Cognee
pip install "cognee[ollama]"
# 3. Variabel lingkungan
export LLM_PROVIDER="ollama"
export LLM_MODEL="devstral-small-2:24b"
export EMBEDDING_PROVIDER="ollama"
export EMBEDDING_MODEL="nomic-embed-text" # 768 dimensi
export EMBEDDING_DIMENSIONS=768
# 4. Uji graf
cognee add --file "your_data.txt" --name "test_graph"
Pastikan dimensi embedding (misalnya, 768, 1024) konsisten antara konfigurasi dan penyimpanan vektor. Qwen3 Embeddings (masih belum teruji dalam Cognee) bisa berfungsi pada dimensi 1024-4096 jika didukung oleh Ollama.
Prioritaskan model berhalusinasi rendah untuk pipeline Cognee produksi—graf Anda akan mengucapkan terima kasih. Uji pada perangkat keras Anda dan pantau kohesi graf.
Model Embedding
Tidak terlalu memikirkan hal ini, tetapi berikut adalah tabel yang saya kumpulkan untuk referensi masa depan
| Model Ollama | Ukuran, GB | Dimensi Embedding | Panjang Konteks |
|---|---|---|---|
| nomic-embed-text:latest | 0,274 | 768 | 2k |
| jina-embeddings-v2-base-en:latest | 0,274 | 768 | 8k |
| nomic-embed-text-v2-moe | 0,958 | 768 | 512 |
| qwen3-embedding:0.6b | 0,639 | 1024 | 32K |
| qwen3-embedding:4b | 2,5 | 2560 | 32K |
| qwen3-embedding:8b | 4,7 | 4096 | 32K |
| avr/sfr-embedding-mistral:latest | 4,4 | 4096 | 32K |
Tautan yang Berguna
- https://docs.cognee.ai/how_to_guides/local_models
- https://docs.cognee.ai/setup-configuration/embedding-providers
- https://arxiv.org/html/2508.10925v1
- https://github.com/vectara/hallucination-leaderboard
- https://ollama.com/library/nomic-embed-text-v2-moe
- Qwen3 Embedding
- Cara Memindahkan Model Ollama ke Drive atau Folder Berbeda
- Ollama cheatsheet