DevOps

Агенты опроса в AI-ассистентах: 11 паттернов реализации

Агенты опроса (Polling agents) — одна из наименее привлекательных частей архитектуры ИИ-ассистентов, но при этом одна из самых полезных.

Быстрый старт и шпаргалка по диаграммам Mermaid для разработчиков

Mermaid — это текстовый инструмент для создания диаграмм, предназначенный для тех, кто предпочитает описывать диаграммы текстом, а не перетаскивать блоки на холсте. Он использует синтаксис, похожий на Markdown, для описания блок-схем, диаграмм последовательностей, диаграмм классов, автоматов состояний, временных шкал, диаграмм Ганта, диаграмм сущностей и связей и многого другого.

Архитектура ИИ-ассистента: LLM, память, инструменты, маршрутизация, наблюдаемость

Производственная система ИИ-ассистента — это не просто «LLM с промптом». Это система, которая принимает намерения пользователя, поддерживает состояние, принимает решения о том, когда извлекать данные или выполнить действие, и предоставляет достаточную информацию о времени выполнения для отладки сбоев.

Выгрузка всех моделей маршрутизатора llama.cpp без перезапуска

Режим маршрутизации llama.cpp — одно из самых полезных изменений в llama-server за последние годы. Наконец-то локальным операторам LLM предоставляется опыт управления моделями, близкий к тому, к которому пользователи привыкли в Ollama, при этом сохраняются высокая производительность и низкоуровневый контроль, которые делают llama.cpp стоящими того, чтобы использовать их в первую очередь.

Канбан в Hermes Agent для самохостинга рабочих процессов LLM

Агент Hermes поставляется с доской в стиле Канбан и шлюзом Hermes Gateway, который может перегрузить вашу локально развернутую модель LLM, если одновременно будет отправлено слишком много задач.

Режим маршрутизации Llama-Server: динамическое переключение моделей без перезапуска

Долгое время у llama.cpp была очевидная limitation:
вы могли обслуживать только одну модель в процессе, а переключение требовало перезапуска.

Плагины OpenClaw — руководство по экосистеме и практические рекомендации

Эта статья посвящена плагинам OpenClaw — нативным пакетам шлюза, которые добавляют каналы, провайдеры моделей, инструменты, речевые функции, память, медиа, веб-поиск и другие возможности runtime.

Hermes AI Assistant: установка, настройка, рабочий процесс и устранение неполадок

Hermes Agent — это локальный, независимый от модели ИИ-ассистент, который работает на локальной машине или на недорогом VPS, взаимодействует через терминал и мессенджеры, а со временем улучшает свои навыки, превращая повторяющиеся задачи в переиспользуемые умения.

Удалённый доступ к Ollama через Tailscale или WireGuard без открытия публичных портов.

Ollama чувствует себя наиболее комфортно, когда с ним обращаются как с локальным демоном: CLI и ваши приложения взаимодействуют с локальным HTTP-интерфейсом (loopback), а остальная сеть даже не знает о его существовании.

Ollama в Docker Compose с использованием GPU и постоянным хранилищем моделей

Ollama отлично работает на «голом» железе. Но становится еще интереснее, если рассматривать его как сервис: стабильный конечный пункт, зафиксированные версии, постоянное хранилище данных и GPU, который либо доступен, либо нет.

Ollama за обратным прокси-сервером Caddy или Nginx для потоковой передачи через HTTPS

Запуск Ollama через обратный прокси — самый простой способ обеспечить поддержку HTTPS, опциональный контроль доступа и предсказуемое поведение потоковой передачи данных.

Apache Flink на K8s и Kafka: PyFlink, Go, эксплуатация и управляемое ценообразование

Apache Flink — это фреймворк для вычислений с сохранением состояния над ограниченным и неограниченным потоками данных.

Графовая база данных Neo4j для GraphRAG: установка, Cypher, векторы, операции.

Neo4j — это то, что вы выбираете, когда связи и есть данные. Если ваша предметная область выглядит как доска с кружками и стрелками, то попытка запихнуть её в таблицы будет болезненной.

Что такое IndexNow: уведомляйте поисковые системы при публикации контента

Статические сайты и блоги меняются при каждой деплойке. Поисковые системы, поддерживающие IndexNow, могут узнать об этих изменениях, не дожидаясь следующего слепого сканирования.

Быстрый старт SGLang: установка, настройка и развертывание больших языковых моделей через API OpenAI

SGLang — это высокопроизводительный фреймворк для развертывания больших языковых и мультимодальных моделей, созданный для обеспечения низколатентного и высокопроизводительного вывода на устройствах от одной GPU до распределенных кластеров.

Быстрый старт Apache Kafka — установка Kafka 4.2 с помощью CLI и локальные примеры

Apache Kafka 4.2.0 — это текущая поддерживаемая ветка релизов, и она является лучшей отправной точкой для современного быстрого старта, поскольку Kafka 4.x полностью работает без ZooKeeper и по умолчанию построена вокруг KRaft.