Выбор правильного LLM для Cognee: настройка локального Ollama
Размышления об использовании больших языковых моделей для саморазмещаемого Cognee
Выбор лучшей LLM для Cognee требует баланса между качеством построения графов, уровнем галлюцинаций и ограничениями оборудования. Cognee лучше всего работает с крупными моделями с низким уровнем галлюцинаций (32B+) через Ollama, но средние по размеру варианты подходят для более легких настроек.

Ключевые требования Cognee
Cognee полагается на LLM для извлечения сущностей, вывода отношений и генерации метаданных. Модели менее 32B часто создают шумные графы, а высокий уровень галлюцинаций (например, 90%+) загрязняет узлы и ребра, ухудшая извлечение. Официальная документация рекомендует deepseek-r1:32b или llama3.3-70b-instruct-q3_K_M в сочетании с вложениями Mistral.
Сравнительная таблица моделей
| Модель | Параметры | Уровень галлюцинаций (SimpleQA/оценка) | VRAM (квантованная) | Сильные стороны Cognee | Слабые стороны |
|---|---|---|---|---|---|
| gpt-oss:20b | 20B | 91.4% | ~16GB | Быстрое выведение, вызов инструментов | Сильный шум в графах |
| Qwen3:14b | 14B | ~40-45% | ~12-14GB | Эффективность на скромном оборудовании | Ограниченная глубина для графов |
| Devstral Small 2 | 24B | ~8-10% | ~18-20GB | Фокус на кодировании, чистые сущности | Более высокая потребность в VRAM, чем у Qwen3 |
| Llama3.3-70b | 70B | ~30-40% | ~40GB+ | Оптимальное качество графов | Высокие требования к ресурсам |
| Deepseek-r1:32b | 32B | Низкий (рекомендуется) | ~24-32GB | Лучший для логики/графов | Медленнее на потребительских GPU |
Данные синтезированы из документации Cognee, карточек моделей и бенчмарков. Уровень галлюцинаций может выглядеть странно, но, возможно, не так уж и далеко от истины…
Рекомендации по оборудованию
- Высокопроизводительное (32GB+ VRAM): Deepseek-r1:32b или Llama3.3-70b. Эти модели дают самые чистые графы согласно рекомендациям Cognee.
- Средний уровень (16-24GB VRAM): Devstral Small 2. Низкий уровень галлюцинаций и кодировочные возможности подходят для структурированных задач памяти.
- Бюджетный вариант (12-16GB VRAM): Qwen3:14b вместо gpt-oss:20b - избегайте ловушки с 91% галлюцинаций.
- Думаю, стоит избегать gpt-oss:20b для Cognee; есть заметки, что его ошибки усиливаются при построении нефильтрованных графов. Но скорость вывода на моем GPU в 2+ раза выше….
Быстрая настройка Ollama + Cognee
# 1. Загрузка модели (например, Devstral)
ollama pull devstral-small-2:24b # или qwen3:14b и т.д.
# 2. Установка Cognee
pip install "cognee[ollama]"
# 3. Переменные окружения
export LLM_PROVIDER="ollama"
export LLM_MODEL="devstral-small-2:24b"
export EMBEDDING_PROVIDER="ollama"
export EMBEDDING_MODEL="nomic-embed-text" # 768 измерений
export EMBEDDING_DIMENSIONS=768
# 4. Тестирование графа
cognee add --file "your_data.txt" --name "test_graph"
Совместите размеры вложений (например, 768, 1024) в конфигурации и векторном хранилище. Вложения Qwen3 (не проверены в Cognee) могут работать при 1024-4096 измерениях, если поддерживаются Ollama.
Приоритезируйте модели с низким уровнем галлюцинаций для производственных конвейеров Cognee — ваши графы скажут вам спасибо. Проверяйте на своем оборудовании и следите за согласованностью графов.
Модели вложений
Не особо задумывался об этом, но вот таблица, которую я собрал для будущих ссылок
| Модель Ollama | Размер, ГБ | Измерения вложений | Длина контекста |
|---|---|---|---|
| nomic-embed-text:latest | 0.274 | 768 | 2k |
| jina-embeddings-v2-base-en:latest | 0.274 | 768 | 8k |
| nomic-embed-text-v2-moe | 0.958 | 768 | 512 |
| qwen3-embedding:0.6b | 0.639 | 1024 | 32K |
| qwen3-embedding:4b | 2.5 | 2560 | 32K |
| qwen3-embedding:8b | 4.7 | 4096 | 32K |
| avr/sfr-embedding-mistral:latest | 4.4 | 4096 | 32K |
Полезные ссылки
- https://docs.cognee.ai/how_to_guides/local_models
- https://docs.cognee.ai/setup-configuration/embedding-providers
- https://arxiv.org/html/2508.10925v1
- https://github.com/vectara/hallucination-leaderboard
- https://ollama.com/library/nomic-embed-text-v2-moe
- Вложения Qwen3
- Как переместить модели Ollama на другой диск или папку
- Шпаргалка по Ollama