Cognee를 위한 적절한 LLM 선택: 로컬 Ollama 설정

자체 호스팅된 Cognee를 위한 LLM에 대한 고찰

Page content

Best LLM for Cognee을 선택할 때는 그래프 생성의 품질, 환상 발생률, 하드웨어 제약을 균형 있게 고려해야 합니다. Cognee는 Ollama를 통해 32B 이상의 낮은 환상률 모델을 사용하여 우수한 성능을 보이지만, 가벼운 설정에서는 중간 크기의 모델도 사용할 수 있습니다.

lecture-in-the-library

Cognee의 주요 요구 사항

Cognee는 엔티티 추출, 관계 추론, 메타데이터 생성을 위해 LLM에 의존합니다. 32B 미만의 모델은 종종 노이즈가 많은 그래프를 생성하고, 높은 환상률(예: 90% 이상)은 노드/엣지에 오염을 일으켜 검색 성능을 저하시킵니다. 공식 문서에서는 deepseek-r1:32b 또는 llama3.3-70b-instruct-q3_K_M과 Mistral 임베딩을 함께 사용하는 것을 권장합니다.

모델 비교 표

모델 파라미터 수 환상률 (SimpleQA/추정) VRAM (양자화됨) Cognee의 강점 약점
gpt-oss:20b 20B 91.4% ~16GB 빠른 추론, 도구 호출 심각한 그래프 노이즈
Qwen3:14b 14B ~40-45% ~12-14GB 적은 하드웨어에서 효율적 그래프 깊이 제한
Devstral Small 2 24B ~8-10% ~18-20GB 코딩 중심, 깨끗한 엔티티 Qwen3보다 더 높은 VRAM 사용
Llama3.3-70b 70B ~30-40% ~40GB+ 최적의 그래프 품질 높은 자원 요구
Deepseek-r1:32b 32B 낮음 (권장) ~24-32GB 추론/그래프에 최적 소비자 GPU에서 느림

이 표는 Cognee 문서, 모델 카드 및 벤치마크에서 합성된 데이터이며, 환상 수준 데이터는 비정상적으로 보일 수 있지만 실제 수준과 크게 차이가 없을 수 있습니다.

하드웨어에 따른 추천

  • 고성능 (32GB 이상 VRAM): Deepseek-r1:32b 또는 Llama3.3-70b. Cognee의 지침에 따라 가장 깨끗한 그래프를 생성합니다.
  • 중간 수준 (16-24GB VRAM): Devstral Small 2. 낮은 환상률과 코딩 능력이 구조화된 메모리 작업에 적합합니다.
  • 예산 (12-16GB VRAM): Qwen3:14b를 gpt-oss:20b보다 선택하세요. 91% 환상률의 함정을 피하세요.
  • Cognee에 gpt-oss:20b를 사용하는 것은 피하는 것이 좋습니다. 필터링되지 않은 그래프 생성 시 오류가 증폭될 수 있다는 주의사항이 있습니다. 하지만 내 GPU에서의 추론 속도는 2배 이상 빠릅니다….

빠른 Ollama + Cognee 설정

# 1. 모델 끌어오기 (예: Devstral)
ollama pull devstral-small-2:24b  # 또는 qwen3:14b 등

# 2. Cognee 설치
pip install "cognee[ollama]"

# 3. 환경 변수 설정
export LLM_PROVIDER="ollama"
export LLM_MODEL="devstral-small-2:24b"
export EMBEDDING_PROVIDER="ollama"
export EMBEDDING_MODEL="nomic-embed-text"  # 768 차원
export EMBEDDING_DIMENSIONS=768

# 4. 그래프 테스트
cognee add --file "your_data.txt" --name "test_graph"

임베딩 차원(예: 768, 1024)이 구성과 벡터 저장소 간에 일치해야 합니다. Qwen3 임베딩 (Cognee에서 검증되지 않음)는 Ollama가 지원하는 경우 1024-4096 차원에서 작동할 수 있습니다.

생산용 Cognee 파이프라인에서는 낮은 환상률을 가진 모델을 우선시하세요. 그래프가 감사할 것입니다. 자신의 하드웨어에서 테스트하고 그래프 일관성을 모니터링하세요.

임베딩 모델

이 부분은 생각하지 않았지만, 미래를 위해 정리한 표입니다.

Ollama 모델 크기, GB 임베딩 차원 컨텍스트 길이
nomic-embed-text:latest 0.274 768 2k
jina-embeddings-v2-base-en:latest 0.274 768 8k
nomic-embed-text-v2-moe 0.958 768 512
qwen3-embedding:0.6b 0.639 1024 32K
qwen3-embedding:4b 2.5 2560 32K
qwen3-embedding:8b 4.7 4096 32K
avr/sfr-embedding-mistral:latest 4.4 4096 32K

유용한 링크