Выбор правильного LLM для Cognee: настройка локального Ollama

Размышления об использовании больших языковых моделей для саморазмещаемого Cognee

Содержимое страницы

Выбор лучшей LLM для Cognee требует баланса между качеством построения графов, уровнем галлюцинаций и ограничениями оборудования. Cognee лучше всего работает с крупными моделями с низким уровнем галлюцинаций (32B+) через Ollama, но средние по размеру варианты подходят для более легких настроек.

lecture-in-the-library

Ключевые требования Cognee

Cognee полагается на LLM для извлечения сущностей, вывода отношений и генерации метаданных. Модели менее 32B часто создают шумные графы, а высокий уровень галлюцинаций (например, 90%+) загрязняет узлы и ребра, ухудшая извлечение. Официальная документация рекомендует deepseek-r1:32b или llama3.3-70b-instruct-q3_K_M в сочетании с вложениями Mistral.

Сравнительная таблица моделей

Модель Параметры Уровень галлюцинаций (SimpleQA/оценка) VRAM (квантованная) Сильные стороны Cognee Слабые стороны
gpt-oss:20b 20B 91.4% ~16GB Быстрое выведение, вызов инструментов Сильный шум в графах
Qwen3:14b 14B ~40-45% ~12-14GB Эффективность на скромном оборудовании Ограниченная глубина для графов
Devstral Small 2 24B ~8-10% ~18-20GB Фокус на кодировании, чистые сущности Более высокая потребность в VRAM, чем у Qwen3
Llama3.3-70b 70B ~30-40% ~40GB+ Оптимальное качество графов Высокие требования к ресурсам
Deepseek-r1:32b 32B Низкий (рекомендуется) ~24-32GB Лучший для логики/графов Медленнее на потребительских GPU

Данные синтезированы из документации Cognee, карточек моделей и бенчмарков. Уровень галлюцинаций может выглядеть странно, но, возможно, не так уж и далеко от истины…

Рекомендации по оборудованию

  • Высокопроизводительное (32GB+ VRAM): Deepseek-r1:32b или Llama3.3-70b. Эти модели дают самые чистые графы согласно рекомендациям Cognee.
  • Средний уровень (16-24GB VRAM): Devstral Small 2. Низкий уровень галлюцинаций и кодировочные возможности подходят для структурированных задач памяти.
  • Бюджетный вариант (12-16GB VRAM): Qwen3:14b вместо gpt-oss:20b - избегайте ловушки с 91% галлюцинаций.
  • Думаю, стоит избегать gpt-oss:20b для Cognee; есть заметки, что его ошибки усиливаются при построении нефильтрованных графов. Но скорость вывода на моем GPU в 2+ раза выше….

Быстрая настройка Ollama + Cognee

# 1. Загрузка модели (например, Devstral)
ollama pull devstral-small-2:24b  # или qwen3:14b и т.д.

# 2. Установка Cognee
pip install "cognee[ollama]"

# 3. Переменные окружения
export LLM_PROVIDER="ollama"
export LLM_MODEL="devstral-small-2:24b"
export EMBEDDING_PROVIDER="ollama"
export EMBEDDING_MODEL="nomic-embed-text"  # 768 измерений
export EMBEDDING_DIMENSIONS=768

# 4. Тестирование графа
cognee add --file "your_data.txt" --name "test_graph"

Совместите размеры вложений (например, 768, 1024) в конфигурации и векторном хранилище. Вложения Qwen3 (не проверены в Cognee) могут работать при 1024-4096 измерениях, если поддерживаются Ollama.

Приоритезируйте модели с низким уровнем галлюцинаций для производственных конвейеров Cognee — ваши графы скажут вам спасибо. Проверяйте на своем оборудовании и следите за согласованностью графов.

Модели вложений

Не особо задумывался об этом, но вот таблица, которую я собрал для будущих ссылок

Модель Ollama Размер, ГБ Измерения вложений Длина контекста
nomic-embed-text:latest 0.274 768 2k
jina-embeddings-v2-base-en:latest 0.274 768 8k
nomic-embed-text-v2-moe 0.958 768 512
qwen3-embedding:0.6b 0.639 1024 32K
qwen3-embedding:4b 2.5 2560 32K
qwen3-embedding:8b 4.7 4096 32K
avr/sfr-embedding-mistral:latest 4.4 4096 32K

Полезные ссылки