Системы ИИ: саморазвернутые ассистенты, RAG и локальная инфраструктура
Большинство локальных конфигураций искусственного интеллекта начинаются с модели и среды выполнения.
Вы загружаете квантованную модель, запускаете ее через Ollama или другую среду выполнения и начинаете формировать запросы. Для экспериментов этого более чем достаточно. Но как только вы переходите от простого любопытства к практическому применению — когда вам начинают важны память, качество извлечения данных, принятие решений о маршрутизации или осознание затрат, — простота такого подхода начинает показывать свои пределы.
Этот кластер статей исследует другой подход: рассмотрение AI-ассистента не как единого вызова модели, а как скоординированной системы.
Это различие может показаться незначительным на первый взгляд, но оно полностью меняет ваше восприятие локального искусственного интеллекта.

Что такое система ИИ?
Система ИИ — это нечто большее, чем просто модель. Это слой оркестрации, соединяющий инференс (вывод), извлечение данных, память и выполнение в нечто, что ведет себя как связный ассистент.
Запуск модели локально — это работа с инфраструктурой. Создание ассистента на основе этой модели — это работа с системами.
Если вы изучали наши более широкие руководства по следующим темам:
- Хостинг LLM в 2026 году: Сравнение локальной, самостоятельно размещаемой и облачной инфраструктуры
- Руководство по генерации с увеличением извлечения (RAG): Архитектура, реализация и руководство по внедрению в производство
- Второй мозг: объяснение для инженеров и работников умственного труда
- Производительность LLM в 2026 году: Бенчмарки, узкие места и оптимизация
- Наблюдаемость для систем ИИ
то вы уже знаете, что инференс — это лишь один слой стека.
Кластер «Системы ИИ» находится поверх этих слоев. Он не заменяет их — он объединяет их.
Для обзорной карты того, как эти слои объединяются в производственных ассистентах — LLM, память, инструменты, маршрутизация и наблюдаемость, с OpenClaw и Hermes в качестве референсных систем — см. Архитектура AI-ассистента: LLM, Память, Инструменты, Маршрутизация, Наблюдаемость.
OpenClaw: Система самостоятельно размещаемого AI-ассистента
OpenClaw — это система AI-ассистента с открытым исходным кодом, размещаемая самостоятельно, предназначенная для работы через платформы обмена сообщениями при использовании локальной инфраструктуры.
На практическом уровне она:
- Использует локальные среды выполнения LLM, такие как Ollama или vLLM
- Интегрирует извлечение данных из индексированных документов
- Поддерживает память за пределами одной сессии
- Выполняет инструменты и задачи автоматизации
- Может быть инструментирована и контролироваться
- Работает в пределах аппаратных ограничений
Это не просто оболочка вокруг модели. Это слой оркестрации, соединяющий инференс, извлечение данных, память и выполнение в нечто, что ведет себя как связный ассистент.
Начало работы и архитектура:
- Руководство по быстрому старту OpenClaw — установка на базе Docker с использованием либо локальной модели Ollama, либо облачной конфигурации Claude
- Обзор системы OpenClaw — архитектурное исследование того, чем OpenClaw отличается от более простых локальных конфигураций
- Руководство по NemoClaw для безопасных операций OpenClaw — путь OpenClaw с приоритетом безопасности с использованием песочницы OpenShell, уровней политик, маршрутизируемого инференса и операций второго дня
Контекст и анализ:
- Таймлайн взлета и падения OpenClaw — экономика за вирусным скачком, отключение подписки в апреле 2026 года и то, что крах раскрывает о циклах хайпа в ИИ
- OpenClaw против Hermes Agent — звезды, загрузки и данные об использовании — живой рейтинг 20 фреймворков с рейтингами токенов OpenRouter, количеством загрузок пакетов, метриками здоровья сообщества и анализом поисковых трендов
Расширение и настройка OpenClaw:
Плагины расширяют среду выполнения OpenClaw — добавляя бэкенды памяти, провайдеров моделей, каналы связи, веб-инструменты и наблюдаемость. Навыки (Skills) расширяют поведение агента — определяя, как и когда агент использует эти возможности. Производственная конфигурация означает сочетание обоих подходов, адаптированное под тех, кто фактически использует систему.
- Плагины OpenClaw — Руководство по экосистеме и практические рекомендации — типы нативных плагинов, жизненный цикл CLI, механизмы безопасности и конкретные рекомендации для памяти, каналов, инструментов и наблюдаемости
- Экосистема навыков OpenClaw и практические рекомендации для производства — открытие в ClawHub, процессы установки и удаления, стеки для каждой роли и навыки, которые стоит сохранить в 2026 году
- Паттерны производственной настройки OpenClaw с плагинами и навыками — полные конфигурации плагинов и навыков по типу пользователей: разработчик, автоматизация, исследования, поддержка и рост — каждый с объединенными скриптами установки
Hermes: Агента с навыками и песочницей инструментов
Hermes Agent — это самостоятельно размещаемый, независимый от модели ассистент, ориентированный на постоянную работу: он может работать как долгоживущий процесс, выполнять инструменты через настраиваемые бэкенды и улучшать рабочие процессы со временем благодаря памяти и повторно используемым навыкам.
На практическом уровне Hermes полезен, когда вам нужно:
- Ассистент, ориентированный на терминал, который также может интегрироваться с приложениями для обмена сообщениями
- Гибкость провайдеров через endpoints, совместимые с OpenAI, и переключение моделей
- Границы выполнения инструментов через локальные и изолированные бэкенды
- Операции второго дня с диагностикой, журналами и гигиеной конфигурации
Профили Hermes — это полностью изолированные среды — каждая со своей собственной конфигурацией, секретами, памятью, сессиями, навыками и состоянием, — что делает профили реальной единицей производственного владения, а не отдельным навыком.
- AI-ассистент Hermes - Установка, настройка, рабочий процесс и устранение неполадок — установка, настройка провайдера, паттерны рабочих процессов и устранение неполадок
- Шпаргалка по CLI Hermes Agent — команды, флаги и слэш-сокращения — табличный индекс подкоманд
hermes, глобальных флагов, инструментов шлюза и профиля, а также распространенных слэш-сокращений - Головое управление Hermes с вашего телефона — мобильно-ориентированный рабочий процесс голоса для Telegram и Discord, с настройкой провайдеров STT и TTS, а также устранением неполадок
- Система памяти Hermes Agent: как на самом деле работает постоянная память ИИ — глубокое техническое руководство по ядровой памяти из двух файлов, паттерну замороженного снимка, всем 8 внешним провайдерам и философии ограниченной памяти
- Навыки AI-ассистента Hermes для реальных производственных настроек — архитектура навыков, ориентированная на профили, для инженеров, исследователей, операторов и исполнительных рабочих процессов
- Создание навыков для Hermes Agent — структура SKILL.md и лучшие практики — практическая структура
SKILL.md, метаданные, условная активация и устранение неполадок, когда навыки исчезают из индекса - Kanban в Hermes Agent для рабочих процессов самостоятельно размещаемых LLM — практические паттерны управления для конкурентности диспетчера, цепочек зависимостей и пакетной обработки на основе cron на самостоятельно размещаемых шлюзах
Постоянные знания и память
Некоторые проблемы не решаются только увеличением контекстного окна — им необходимы постоянные знания (графы, конвейеры потребления) и плагины памяти агента (Honcho, Mem0, Hindsight и аналогичные бэкенды), интегрированные в ассистенты, такие как Hermes или OpenClaw.
- Центр памяти систем ИИ — область подкластера памяти, а также ссылки на руководства по Cognee и контексту стека
- Системы памяти в AI-ассистентах, которые действительно помогают — проектирование памяти кросс-фреймворков для рабочего состояния, структурированных фактов и слоев извлечения
- Сравнение провайдеров памяти агентов — полное сравнение Honcho, OpenViking, Mem0, Hindsight, Holographic, RetainDB, ByteRover и Supermemory для интеграций в стиле Hermes
MCP: Серверы протокола контекста модели
Протокол контекста модели (MCP) — это открытый стандарт, представленный Anthropic для подключения языковых моделей ИИ к внешним источникам данных, инструментам и системам. Он решает проблему интеграции N×M, предоставляя универсальный интерфейс — представьте его как порт USB-C для приложений ИИ. Создание серверов MCP позволяет расширять AI-ассистенты пользовательскими интеграциями для файлов, баз данных, API и вызываемых инструментов, используя простой протокол на основе JSON-RPC через stdio или HTTP.
- Сервер MCP на Go — архитектура протокола, структура сообщений JSON-RPC, согласование возможностей, официальный SDK Go и пошаговое руководство по созданию серверов MCP на Go
- Создание серверов MCP на Python — практическое руководство по реализации на Python, охватывающее серверы MCP для веб-поиска и скрапинга, транспорты stdio и SSE, а также интеграцию с Claude Desktop
Что отличает системы ИИ
Несколько характеристик делают системы ИИ достойными более пристального внимания.
Маршрутизация моделей как дизайнерский выбор
Большинство локальных конфигураций по умолчанию используют одну модель. Системы ИИ поддерживают осознанный выбор моделей.
Это вводит следующие вопросы:
- Должны ли небольшие запросы использовать меньшие модели?
- Когда рассуждения оправдывают использование большего контекстного окна?
- Какова разница в стоимости на 1000 токенов?
Эти вопросы напрямую связаны с компромиссами производительности, обсуждаемыми в руководстве по производительности LLM, и решениями по инфраструктуре, изложенными в руководстве по хостингу LLM.
Системы ИИ выносят эти решения на поверхность, а не скрывают их.
Извлечение рассматривается как развивающийся компонент
Системы ИИ интегрируют извлечение документов, но не как упрощенный шаг «встроить и поискать».
Они признают:
- Размер чанка влияет на припоминание и стоимость
- Гибридный поиск (BM25 + векторный) может превосходить чистый плотный извлечение
- Переуточнение ранга улучшает релевантность ценой задержки
- Стратегия индексирования влияет на потребление памяти
Эти темы согласуются с более глубокими архитектурными соображениями, обсуждаемыми в руководстве по RAG.
Разница в том, что системы ИИ встраивают извлечение в живого ассистента, а не представляют его как изолированную демонстрацию.
Память как инфраструктура
Бессостоянные LLM забывают все между сессиями.
Системы ИИ вводят слои постоянной памяти. Это сразу порождает вопросы проектирования:
- Что должно храниться в долгосрочной перспективе?
- Когда контекст следует обобщать?
- Как предотвратить взрыв токенов?
- Как эффективно индексировать память?
Эти вопросы напрямую пересекаются с соображениями уровня данных из руководства по инфраструктуре данных. Для Hermes Agent в частности — ограниченная двухфайловая память, префиксное кэширование, внешние плагины — начните с Системы памяти Hermes Agent и кросс-фреймворкового сравнения Сравнение провайдеров памяти агентов. В Центре памяти систем ИИ перечислены связанные руководства по Cognee и уровню знаний.
Память перестает быть функцией и становится проблемой хранения.
Наблюдаемость не является опциональной
Большинство локальных экспериментов с ИИ останавливаются на «он отвечает».
Системы ИИ позволяют наблюдать:
- Использование токенов
- Задержку
- Использование аппаратных ресурсов
- Паттерны пропускной способности
Это естественно связано с принципами мониторинга, описанными в руководстве по наблюдаемости.
Если ИИ работает на оборудовании, он должен быть измеримым, как любая другая нагрузка.
Как это ощущается при использовании
Снаружи система ИИ может по-прежнему выглядеть как интерфейс чата.
Под поверхностью происходит больше.
Если вы попросите его обобщить технический отчет, хранящийся локально:
- Он извлекает соответствующие сегменты документа.
- Он выбирает подходящую модель.
- Он генерирует ответ.
- Он фиксирует использование токенов и задержку.
- Он обновляет постоянную память, если необходимо.
Видимое взаимодействие остается простым. Поведение системы многослойно.
Именно это многослойное поведение отличает систему от демонстрации.
Где системы ИИ занимают место в стеке
Кластер «Системы ИИ» находится на пересечении нескольких слоев инфраструктуры:
- Хостинг LLM: Слой среды выполнения, где выполняются модели (Ollama, vLLM, llama.cpp)
- RAG: Слой извлечения, который предоставляет контекст и основу
- Производительность: Слой измерения, который отслеживает задержку и пропускную способность
- Наблюдаемость: Слой мониторинга, который предоставляет метрики и отслеживание затрат
- Инфраструктура данных: Слой хранения, который обрабатывает память и индексацию
Понимание этого различия полезно. Самостоятельный запуск делает эту разницу еще более очевидной.
Для минимальной локальной установки с OpenClaw см. руководство по быстрому старту OpenClaw, которое проводит вас через настройку на базе Docker с использованием либо локальной модели Ollama, либо облачной конфигурации Claude.
Если ваша настройка зависит от Claude, это изменение политики для инструментов агентов объясняет, почему теперь требуется биллинг API для сторонних рабочих процессов OpenClaw.
Связанные ресурсы
Серверы MCP:
Руководства по AI-ассистентам:
- Архитектура AI-ассистента: LLM, Память, Инструменты, Маршрутизация, Наблюдаемость
- Обзор системы OpenClaw
- Таймлайн взлета и падения OpenClaw
- Руководство по быстрому старту OpenClaw
- Плагины OpenClaw — Руководство по экосистеме и практические рекомендации
- Экосистема навыков OpenClaw и практические рекомендации для производства
- Паттерны производственной настройки OpenClaw с плагинами и навыками
- AI-ассистент Hermes - Установка, настройка, рабочий процесс и устранение неполадок
- Система памяти Hermes Agent: как на самом деле работает постоянная память ИИ
- Центр памяти систем ИИ
- Сравнение провайдеров памяти агентов
- Навыки AI-ассистента Hermes для реальных производственных настроек
- Создание навыков для Hermes Agent — структура SKILL.md и лучшие практики
Слои инфраструктуры:
- Хостинг LLM в 2026 году: Сравнение локальной, самостоятельно размещаемой и облачной инфраструктуры
- Руководство по генерации с увеличением извлечения (RAG): Архитектура, реализация и руководство по внедрению в производство
- Производительность LLM в 2026 году: Бенчмарки, узкие места и оптимизация
- Параметры агентного инференса LLM для Qwen и Gemma
- Наблюдаемость для систем ИИ
- Инфраструктура данных для систем ИИ