Self-Hosting

Выгрузка всех моделей маршрутизатора llama.cpp без перезапуска

Режим маршрутизации llama.cpp — одно из самых полезных изменений в llama-server за последние годы. Наконец-то локальным операторам LLM предоставляется опыт управления моделями, близкий к тому, к которому пользователи привыкли в Ollama, при этом сохраняются высокая производительность и низкоуровневый контроль, которые делают llama.cpp стоящими того, чтобы использовать их в первую очередь.

Справочник по параметрам агентного вывода LLM для Qwen и Gemma

Эта страница представляет собой практическое руководство по настройке агентов на базе LLM (температура, top_p, top_k, штрафы и их взаимодействие в многоступенчатых рабочих процессах с интенсивным использованием инструментов).

Голосовое управление Hermes с вашего телефона

Вы уже общаетесь с агентом Hermes через телефон, используя текстовые сообщения. Теперь вы хотите говорить с ним напрямую и получать ответы голосом. Как правило, это правильное решение, особенно если вы уже используете Hermes как постоянно работающего автономного ассистента. Ввод длинных подсказок на маленьком экране медленный и подвержен ошибкам.

Практическое руководство NemoClaw по безопасным операциям с OpenClaw в 2026 году

Большинство стеков ИИ-агентов по-прежнему рассматривают безопасность как проблему, которую нужно решать после демонстрации. NemoClaw исходит из противоположного предположения и делает изоляцию, политики и маршрутизацию настройками по умолчанию с первого дня.

Управление знаниями в 2026 году: инструменты PKM, самообслуживаемые вики и цифровые системы

Управление персональными знаниями охватывает такие инструменты, как Obsidian, Logseq, DokuWiki, метод Zettelkasten и систему PARA — правильный выбор зависит от того, нужна ли вам локальная графа заметок, собственный хостинг вики или рабочий процесс, управляемый аутлайнером.

Claude, OpenClaw и конец эпохи фиксированного ценообразования для агентов

Тихая лазейка, подпитывавшая волну экспериментов с агентами, теперь закрыта.

Быстрый старт с Vane (Perplexica 2.0), Ollama и llama.cpp

Vane — это один из наиболее прагматичных проектов в пространстве «поиска с использованием ИИ и цитированием»: самохостинговое средство ответов, которое сочетает в себе живой поиск в вебе с локальными или облачными LLM, сохраняя при этом полный контроль над всем стеком технологий.

TGI — Text Generation Inference: установка, настройка и устранение неполадок

Text Generation Inference (TGI) обладает очень специфической энергетикой. Это не самый новый проект на улице инференса, но это тот, который уже научился, как происходит работа в продакшене, —

Бенчмарки LLM с 16 ГБ VRAM с использованием llama.cpp (скорость и контекст)

Здесь я сравниваю скорость нескольких больших языковых моделей (LLM), работающих на видеокарте с 16 ГБ видеопамяти, и выбираю лучшую для локального развертывания.

RTX 5090 в Австралии: цены, наличие и реальное положение дел в марте 2026 года

В Австралии есть в наличии RTX 5090. Вроде бы. И если вам повезет ее найти, вы заплатите премию, оторванную от реальности.

Удалённый доступ к Ollama через Tailscale или WireGuard без открытия публичных портов.

Ollama чувствует себя наиболее комфортно, когда с ним обращаются как с локальным демоном: CLI и ваши приложения взаимодействуют с локальным HTTP-интерфейсом (loopback), а остальная сеть даже не знает о его существовании.

Ollama в Docker Compose с использованием GPU и постоянным хранилищем моделей

Ollama отлично работает на «голом» железе. Но становится еще интереснее, если рассматривать его как сервис: стабильный конечный пункт, зафиксированные версии, постоянное хранилище данных и GPU, который либо доступен, либо нет.

Ollama за обратным прокси-сервером Caddy или Nginx для потоковой передачи через HTTPS

Запуск Ollama через обратный прокси — самый простой способ обеспечить поддержку HTTPS, опциональный контроль доступа и предсказуемое поведение потоковой передачи данных.

Векторные представления текста для RAG и поиска — Python, Ollama, совместимые с API OpenAI

Если вы работаете с генерацией с расширением поиска (RAG), этот раздел объясняет векторные представления текста (эмбеддинги) простым языком: что это такое, как они работают в поиске и извлечении данных, и как вызывать два распространенных локальных режима из Python с помощью Ollama или OpenAI-совместимого HTTP API (так как многие серверы на базе llama.cpp поддерживают такой интерфейс).

Что такое IndexNow: уведомляйте поисковые системы при публикации контента

Статические сайты и блоги меняются при каждой деплойке. Поисковые системы, поддерживающие IndexNow, могут узнать об этих изменениях, не дожидаясь следующего слепого сканирования.

Быстрый старт SGLang: установка, настройка и развертывание больших языковых моделей через API OpenAI

SGLang — это высокопроизводительный фреймворк для развертывания больших языковых и мультимодальных моделей, созданный для обеспечения низколатентного и высокопроизводительного вывода на устройствах от одной GPU до распределенных кластеров.