LLM - Рост Глухов | Персональный сайт и технический блог

Спекулятивное декодирование: ускорение вывода LLM на 20–50%

Модель объемом 70 миллиардов параметров генерирует один токен за один прямой проход, и при каждом проходе веса перезагружаются из видеопамяти (VRAM), вычисляется внимание (attention) по всему контексту и синхронизируется память. Между токенами GPU простаивает, ожидая разрешения последовательных зависимостей.

Что такое разработка на основе спецификаций? Спецификация как источник истины

Разработка, управляемая спецификациями, — это одна из тех идей, к которой инженеры-программисты обращались раньше, но от которой отказывались, когда усилия переставали окупаться.

Разработка по спецификациям против кодирования по настроению: водопад?

Спецификация-ориентированная разработка (Spec-Driven Development, SDD) вошла в 2026 год как серьезный ответ разработчиков на дрейф, характерный для вайб-кодинга.

Протокол A2A от Google в 2026 году: внедрение, ажиотаж и реальность

Первый год протокола Google Agent2Agent, обычно сокращаемого до A2A, выдался странным.

Агенты опроса в AI-ассистентах: 11 паттернов реализации

Агенты опроса (Polling agents) — одна из наименее привлекательных частей архитектуры ИИ-ассистентов, но при этом одна из самых полезных.

A2A против MCP: действительно ли AI-агентам нужны оба протокола?

Архитектура AI-агентов начинает разделяться на два слоя.

Что такое протокол A2A? Разбираемся в карточках агентов и задачах

Протокол A2A, что расшифровывается как Agent2Agent Protocol (протокол взаимодействия агентов с агентами), представляет собой открытый стандарт для коммуникации между независимыми системами ИИ-агентов.

Архитектура LLM: проектирование систем для ИИ в продакшене

Design decisions for production LLM systems — routing, cost, guardrails, and multi-model orchestration. The layer between running models and building reliable AI applications.

LLM-ограничители на практике: что действительно работает

Языковые модели (LLM) непредсказуемы. Они галлюцинируют, утекают данные, генерируют вредоносный контент или отказываются выполнять законные запросы. Ограничительные механизмы (guardrails) сужают поведение модели, не снижая при этом её возможностей.

Маршрутизация моделей: перестаньте использовать одну модель для всего

Запуск модели с 70 миллиардами параметров для суммаризации электронного письма из 200 слов — это расточительство. Запуск модели с 3 миллиардами параметров для ревью продакшн-кода — это безрассудство. Большинство систем находятся где-то посередине, и именно здесь в игру вступает роутинг моделей (маршрутизация запросов).

Оптимизация затрат для систем LLM: куда на самом деле уходит деньги

Стоимость использования больших языковых моделей (LLM) растет линейно в зависимости от объема запросов. Система, обрабатывающая 10 000 запросов в день по цене $0,01 за запрос, обходится в $100 ежедневно — это $365 в год. В корпоративном масштабе эта сумма превышает $10 000.

Проектирование многомоделевых систем: когда одной модели недостаточно

Системы с одной моделью просты. Системы с несколькими моделями мощны. Сложность заключается не в выборе моделей, а в проектировании архитектуры, которая ими управляет.

Память превращает ассистентов из реактивных в персистентные системы, но именно здесь многие системы тихо деградируют. Исследования показывают, что разделение на кратковременную и долгосрочную память больше не достаточно для современной памяти агентов; OpenAI и SDK LangGraph указывают на более простую архитектуру — рабочую память, персистентное состояние и извлечение данных.

Архитектура ИИ-ассистента: LLM, память, инструменты, маршрутизация, наблюдаемость

Производственная система ИИ-ассистента — это не просто «LLM с промптом». Это система, которая принимает намерения пользователя, поддерживает состояние, принимает решения о том, когда извлекать данные или выполнить действие, и предоставляет достаточную информацию о времени выполнения для отладки сбоев.

ИИ для управления знаниями: реальные рабочие процессы, которые работают

Искусственный интеллект не заменяет управление знаниями; он меняет его форму как для отдельных лиц, так и для команд.

OpenClaw против Hermes Agent: звёзды, загрузки и использование в 2026 году

Фреймворки для ИИ-агентов с открытым исходным кодом стремительно набирают популярность на GitHub. Два проекта, являющихся основой экосистемы самохостинговых ИИ-систем — OpenClaw и Hermes Agent — настолько опередили остальных, что вся остальная отрасль борется за отдаленное третье место.