Системы ИИ: саморазвернутые ассистенты, RAG и локальная инфраструктура

Содержимое страницы

Большинство локальных конфигураций искусственного интеллекта начинаются с модели и среды выполнения.

Вы загружаете квантованную модель, запускаете ее через Ollama или другую среду выполнения и начинаете формировать запросы. Для экспериментов этого более чем достаточно. Но как только вы переходите от простого любопытства к практическому применению — когда вам начинают важны память, качество извлечения данных, принятие решений о маршрутизации или осознание затрат, — простота такого подхода начинает показывать свои пределы.

Этот кластер статей исследует другой подход: рассмотрение AI-ассистента не как единого вызова модели, а как скоординированной системы.

Это различие может показаться незначительным на первый взгляд, но оно полностью меняет ваше восприятие локального искусственного интеллекта.

Оркестрация систем ИИ с локальными LLM, RAG и слоями памяти


Что такое система ИИ?

Система ИИ — это нечто большее, чем просто модель. Это слой оркестрации, соединяющий инференс (вывод), извлечение данных, память и выполнение в нечто, что ведет себя как связный ассистент.

Запуск модели локально — это работа с инфраструктурой. Создание ассистента на основе этой модели — это работа с системами.

Если вы изучали наши более широкие руководства по следующим темам:

то вы уже знаете, что инференс — это лишь один слой стека.

Кластер «Системы ИИ» находится поверх этих слоев. Он не заменяет их — он объединяет их.

Для обзорной карты того, как эти слои объединяются в производственных ассистентах — LLM, память, инструменты, маршрутизация и наблюдаемость, с OpenClaw и Hermes в качестве референсных систем — см. Архитектура AI-ассистента: LLM, Память, Инструменты, Маршрутизация, Наблюдаемость.


OpenClaw: Система самостоятельно размещаемого AI-ассистента

OpenClaw — это система AI-ассистента с открытым исходным кодом, размещаемая самостоятельно, предназначенная для работы через платформы обмена сообщениями при использовании локальной инфраструктуры.

На практическом уровне она:

  • Использует локальные среды выполнения LLM, такие как Ollama или vLLM
  • Интегрирует извлечение данных из индексированных документов
  • Поддерживает память за пределами одной сессии
  • Выполняет инструменты и задачи автоматизации
  • Может быть инструментирована и контролироваться
  • Работает в пределах аппаратных ограничений

Это не просто оболочка вокруг модели. Это слой оркестрации, соединяющий инференс, извлечение данных, память и выполнение в нечто, что ведет себя как связный ассистент.

Начало работы и архитектура:

Контекст и анализ:

Расширение и настройка OpenClaw:

Плагины расширяют среду выполнения OpenClaw — добавляя бэкенды памяти, провайдеров моделей, каналы связи, веб-инструменты и наблюдаемость. Навыки (Skills) расширяют поведение агента — определяя, как и когда агент использует эти возможности. Производственная конфигурация означает сочетание обоих подходов, адаптированное под тех, кто фактически использует систему.


Hermes: Агента с навыками и песочницей инструментов

Hermes Agent — это самостоятельно размещаемый, независимый от модели ассистент, ориентированный на постоянную работу: он может работать как долгоживущий процесс, выполнять инструменты через настраиваемые бэкенды и улучшать рабочие процессы со временем благодаря памяти и повторно используемым навыкам.

На практическом уровне Hermes полезен, когда вам нужно:

  • Ассистент, ориентированный на терминал, который также может интегрироваться с приложениями для обмена сообщениями
  • Гибкость провайдеров через endpoints, совместимые с OpenAI, и переключение моделей
  • Границы выполнения инструментов через локальные и изолированные бэкенды
  • Операции второго дня с диагностикой, журналами и гигиеной конфигурации

Профили Hermes — это полностью изолированные среды — каждая со своей собственной конфигурацией, секретами, памятью, сессиями, навыками и состоянием, — что делает профили реальной единицей производственного владения, а не отдельным навыком.


Постоянные знания и память

Некоторые проблемы не решаются только увеличением контекстного окна — им необходимы постоянные знания (графы, конвейеры потребления) и плагины памяти агента (Honcho, Mem0, Hindsight и аналогичные бэкенды), интегрированные в ассистенты, такие как Hermes или OpenClaw.


MCP: Серверы протокола контекста модели

Протокол контекста модели (MCP) — это открытый стандарт, представленный Anthropic для подключения языковых моделей ИИ к внешним источникам данных, инструментам и системам. Он решает проблему интеграции N×M, предоставляя универсальный интерфейс — представьте его как порт USB-C для приложений ИИ. Создание серверов MCP позволяет расширять AI-ассистенты пользовательскими интеграциями для файлов, баз данных, API и вызываемых инструментов, используя простой протокол на основе JSON-RPC через stdio или HTTP.

  • Сервер MCP на Go — архитектура протокола, структура сообщений JSON-RPC, согласование возможностей, официальный SDK Go и пошаговое руководство по созданию серверов MCP на Go
  • Создание серверов MCP на Python — практическое руководство по реализации на Python, охватывающее серверы MCP для веб-поиска и скрапинга, транспорты stdio и SSE, а также интеграцию с Claude Desktop

Что отличает системы ИИ

Несколько характеристик делают системы ИИ достойными более пристального внимания.

Маршрутизация моделей как дизайнерский выбор

Большинство локальных конфигураций по умолчанию используют одну модель. Системы ИИ поддерживают осознанный выбор моделей.

Это вводит следующие вопросы:

  • Должны ли небольшие запросы использовать меньшие модели?
  • Когда рассуждения оправдывают использование большего контекстного окна?
  • Какова разница в стоимости на 1000 токенов?

Эти вопросы напрямую связаны с компромиссами производительности, обсуждаемыми в руководстве по производительности LLM, и решениями по инфраструктуре, изложенными в руководстве по хостингу LLM.

Системы ИИ выносят эти решения на поверхность, а не скрывают их.

Извлечение рассматривается как развивающийся компонент

Системы ИИ интегрируют извлечение документов, но не как упрощенный шаг «встроить и поискать».

Они признают:

  • Размер чанка влияет на припоминание и стоимость
  • Гибридный поиск (BM25 + векторный) может превосходить чистый плотный извлечение
  • Переуточнение ранга улучшает релевантность ценой задержки
  • Стратегия индексирования влияет на потребление памяти

Эти темы согласуются с более глубокими архитектурными соображениями, обсуждаемыми в руководстве по RAG.

Разница в том, что системы ИИ встраивают извлечение в живого ассистента, а не представляют его как изолированную демонстрацию.

Память как инфраструктура

Бессостоянные LLM забывают все между сессиями.

Системы ИИ вводят слои постоянной памяти. Это сразу порождает вопросы проектирования:

  • Что должно храниться в долгосрочной перспективе?
  • Когда контекст следует обобщать?
  • Как предотвратить взрыв токенов?
  • Как эффективно индексировать память?

Эти вопросы напрямую пересекаются с соображениями уровня данных из руководства по инфраструктуре данных. Для Hermes Agent в частности — ограниченная двухфайловая память, префиксное кэширование, внешние плагины — начните с Системы памяти Hermes Agent и кросс-фреймворкового сравнения Сравнение провайдеров памяти агентов. В Центре памяти систем ИИ перечислены связанные руководства по Cognee и уровню знаний.

Память перестает быть функцией и становится проблемой хранения.

Наблюдаемость не является опциональной

Большинство локальных экспериментов с ИИ останавливаются на «он отвечает».

Системы ИИ позволяют наблюдать:

  • Использование токенов
  • Задержку
  • Использование аппаратных ресурсов
  • Паттерны пропускной способности

Это естественно связано с принципами мониторинга, описанными в руководстве по наблюдаемости.

Если ИИ работает на оборудовании, он должен быть измеримым, как любая другая нагрузка.


Как это ощущается при использовании

Снаружи система ИИ может по-прежнему выглядеть как интерфейс чата.

Под поверхностью происходит больше.

Если вы попросите его обобщить технический отчет, хранящийся локально:

  1. Он извлекает соответствующие сегменты документа.
  2. Он выбирает подходящую модель.
  3. Он генерирует ответ.
  4. Он фиксирует использование токенов и задержку.
  5. Он обновляет постоянную память, если необходимо.

Видимое взаимодействие остается простым. Поведение системы многослойно.

Именно это многослойное поведение отличает систему от демонстрации.


Где системы ИИ занимают место в стеке

Кластер «Системы ИИ» находится на пересечении нескольких слоев инфраструктуры:

  • Хостинг LLM: Слой среды выполнения, где выполняются модели (Ollama, vLLM, llama.cpp)
  • RAG: Слой извлечения, который предоставляет контекст и основу
  • Производительность: Слой измерения, который отслеживает задержку и пропускную способность
  • Наблюдаемость: Слой мониторинга, который предоставляет метрики и отслеживание затрат
  • Инфраструктура данных: Слой хранения, который обрабатывает память и индексацию

Понимание этого различия полезно. Самостоятельный запуск делает эту разницу еще более очевидной.

Для минимальной локальной установки с OpenClaw см. руководство по быстрому старту OpenClaw, которое проводит вас через настройку на базе Docker с использованием либо локальной модели Ollama, либо облачной конфигурации Claude.

Если ваша настройка зависит от Claude, это изменение политики для инструментов агентов объясняет, почему теперь требуется биллинг API для сторонних рабочих процессов OpenClaw.


Связанные ресурсы

Серверы MCP:

Руководства по AI-ассистентам:

Слои инфраструктуры:

Подписаться

Получайте новые материалы про системы, инфраструктуру и AI engineering.