Memilih LLM yang Tepat untuk Cognee: Pengaturan Ollama Lokal

Pikiran tentang LLM untuk Cognee yang dihosting sendiri

Konten Halaman

Memilih LLM Terbaik untuk Cognee memerlukan keseimbangan antara kualitas pembuatan graf, tingkat halusinasi, dan pembatasan perangkat keras. Cognee unggul dengan model besar berhalusinasi rendah (32B+) melalui Ollama tetapi pilihan ukuran sedang juga cocok untuk konfigurasi yang lebih ringan.

lecture-in-the-library

Persyaratan Utama Cognee

Cognee bergantung pada LLM untuk ekstraksi entitas, inferensi hubungan, dan pembuatan metadata. Model di bawah 32B sering menghasilkan graf yang berisik, sementara tingkat halusinasi yang tinggi (misalnya, 90%+) mengotori simpul/edge, mengurangi kualitas pencarian. Dokumen resmi merekomendasikan deepseek-r1:32b atau llama3.3-70b-instruct-q3_K_M yang dipasangkan dengan embedding Mistral.

Tabel Perbandingan Model

Model Parameter Halusinasi (SimpleQA/est.) VRAM (dikuantisasi) Keunggulan Cognee Kekurangan
gpt-oss:20b 20B 91,4% ~16GB Inferensi cepat, pemanggilan alat Gangguan graf yang parah
Qwen3:14b 14B ~40-45% ~12-14GB Efisien pada perangkat keras sedang Kedalaman terbatas untuk graf
Devstral Small 2 24B ~8-10% ~18-20GB Fokus pada pemrograman, entitas bersih VRAM lebih tinggi daripada Qwen3
Llama3.3-70b 70B ~30-40% ~40GB+ Kualitas graf optimal Kebutuhan sumber daya berat
Deepseek-r1:32b 32B Rendah (direkomendasikan) ~24-32GB Terbaik untuk penalaran/graf Lebih lambat pada GPU konsumen

Data disintesis dari dokumen Cognee, kartu model, dan benchmark, tingkat halusinasi meskipun tampak tidak wajar, mungkin tidak jauh dari kebenaran…

Rekomendasi Berdasarkan Perangkat Keras

  • High-end (VRAM 32GB+): Deepseek-r1:32b atau Llama3.3-70b. Model ini menghasilkan graf paling bersih sesuai panduan Cognee.
  • Mid-range (VRAM 16-24GB): Devstral Small 2. Halusinasi rendah dan keahlian pemrograman cocok untuk tugas memori terstruktur.
  • Budget (VRAM 12-16GB): Qwen3:14b daripada gpt-oss:20b - hindari risiko halusinasi 91%.
  • Berpikir untuk menghindari gpt-oss:20b untuk Cognee; ada catatan bahwa kesalahan model ini memperparah dalam pembuatan graf yang tidak terfilter. Namun, kecepatan inferensi pada GPU saya 2+ kali lebih cepat….

Setup Cepat Ollama + Cognee

# 1. Unduh model (misalnya, Devstral)
ollama pull devstral-small-2:24b  # atau qwen3:14b, dll.

# 2. Instal Cognee
pip install "cognee[ollama]"

# 3. Variabel lingkungan
export LLM_PROVIDER="ollama"
export LLM_MODEL="devstral-small-2:24b"
export EMBEDDING_PROVIDER="ollama"
export EMBEDDING_MODEL="nomic-embed-text"  # 768 dimensi
export EMBEDDING_DIMENSIONS=768

# 4. Uji graf
cognee add --file "your_data.txt" --name "test_graph"

Pastikan dimensi embedding (misalnya, 768, 1024) konsisten antara konfigurasi dan penyimpanan vektor. Qwen3 Embeddings (masih belum teruji dalam Cognee) bisa berfungsi pada dimensi 1024-4096 jika didukung oleh Ollama.

Prioritaskan model berhalusinasi rendah untuk pipeline Cognee produksi—graf Anda akan mengucapkan terima kasih. Uji pada perangkat keras Anda dan pantau kohesi graf.

Model Embedding

Tidak terlalu memikirkan hal ini, tetapi berikut adalah tabel yang saya kumpulkan untuk referensi masa depan

Model Ollama Ukuran, GB Dimensi Embedding Panjang Konteks
nomic-embed-text:latest 0,274 768 2k
jina-embeddings-v2-base-en:latest 0,274 768 8k
nomic-embed-text-v2-moe 0,958 768 512
qwen3-embedding:0.6b 0,639 1024 32K
qwen3-embedding:4b 2,5 2560 32K
qwen3-embedding:8b 4,7 4096 32K
avr/sfr-embedding-mistral:latest 4,4 4096 32K

Tautan yang Berguna