LLM - Page 4 - Рост Глухов | Персональный сайт и технический блог

Векторные представления текста для RAG и поиска — Python, Ollama, совместимые с API OpenAI

Если вы работаете с генерацией с расширением поиска (RAG), этот раздел объясняет векторные представления текста (эмбеддинги) простым языком: что это такое, как они работают в поиске и извлечении данных, и как вызывать два распространенных локальных режима из Python с помощью Ollama или OpenAI-совместимого HTTP API (так как многие серверы на базе llama.cpp поддерживают такой интерфейс).

Быстрый старт SGLang: установка, настройка и развертывание больших языковых моделей через API OpenAI

SGLang — это высокопроизводительный фреймворк для развертывания больших языковых и мультимодальных моделей, созданный для обеспечения низколатентного и высокопроизводительного вывода на устройствах от одной GPU до распределенных кластеров.

Быстрый старт: переключатель моделей llama.swap для локальных LLM, совместимых с OpenAI

Вскоре вы будете жонглировать vLLM, llama.cpp и другими решениями — каждый стек на своем порту. Все downstream-системы все еще хотят один базовый URL /v1; иначе вы постоянно переставляете порты, профили и одноразовые скрипты. llama-swap — это прокси /v1 перед этими стеками.

Системы ИИ: самостоятельно размещаемые ассистенты, RAG и локальная инфраструктура

Большинство локальных настроек ИИ начинаются с модели и среды выполнения.

Обзор Opencode: честные результаты, риски биллинга и когда это того стоит

Oh My Opencode обещает «виртуальную команду AI-разработчиков» — Сизиф координирует специалистов, задачи выполняются параллельно, а волшебное ключевое слово ultrawork активирует всё это.

«О, мой Opencode: Быстрый старт с OpenCode — установка, настройка, запуск»

Oh My Opencode превращает OpenCode в многоагентскую среду для разработки: оркестратор делегирует работу специализированным агентам, которые выполняются параллельно.

Лучшие LLM для OpenCode: от Gemma 4 до Qwen 3.6, протестированные локально

Я протестировал, как OpenCode работает с несколькими локальными LLM, запущенными через Ollama и llama.cpp, а для сравнения добавил несколько бесплатных моделей из OpenCode Zen.

Обзор специализированных агентов Opencode и руководство по моделям

Наибольший скачок в возможностях OpenCode обеспечивается специализированными агентами: осозванным разделением оркестрации, планирования, выполнения и исследований.

Быстрый старт с OpenHands Coding Assistant: установка, флаги командной строки, примеры

OpenHands — это открытая платформа, не зависящая от конкретной модели, для агентов ИИ в сфере разработки программного обеспечения. Она позволяет агенту вести себя скорее как партнер по программированию, чем как простой инструмент автодополнения.

Быстрый старт с LocalAI: запуск локальных LLM, совместимых с OpenAI

LocalAI — это самодостаточный сервер вывода с приоритетом на локальное использование, разработанный для работы как прямая замена OpenAI API для запуска ИИ-нагрузок на вашем собственном оборудовании (ноутбук, рабочая станция или сервер в центре обработки данных).

Быстрый старт с llama.cpp: командная строка и сервер

Я продолжаю возвращаться к llama.cpp для локального инференса — он предоставляет контроль, который Ollama и другие решения абстрагируют, и просто работает. Легко запускать модели GGUF интерактивно с помощью llama-cli или экспонировать HTTP API, совместимое с OpenAI, с помощью llama-server.

Инструменты для разработчиков ИИ: полное руководство по созданию приложений с использованием искусственного интеллекта

Искусственный интеллект меняет подход к написанию, ревью, развертыванию и поддержке программного обеспечения. От ИИ-ассистентов для написания кода до автоматизации GitOps и рабочих процессов DevOps, разработчики теперь полагаются на инструменты, основанные на ИИ, на всех этапах жизненного цикла ПО.

Быстрый старт с OpenCode: установка, настройка и использование агента ИИ для кодирования в терминале

OpenCode — это агент для программирования на базе ИИ с открытым исходным кодом, который можно запускать в терминале (TUI + CLI) с дополнительными интерфейсами для рабочего стола и IDE. Это руководство по быстрому старту OpenCode Quickstart: установка, проверка, подключение модели/провайдера и запуск рабочих процессов (CLI + API).

Мониторинг инференса LLM в продакшене (2026): Prometheus и Grafana для vLLM, TGI и llama.cpp

Инференс LLM выглядит как «еще один API» — до тех пор, пока не возникнут скачки задержки, не начнут накапливаться очереди, а ваши GPU не окажутся загружены по памяти на 95% без очевидной причины.

OpenClaw: Исследование самохостинга ИИ-ассистента как реальной системы

Большинство локальных конфигураций искусственного интеллекта начинаются одинаково: модель, среда выполнения и интерфейс чата.

Быстрый старт OpenClaw: установка с помощью Docker (Ollama GPU или Claude + CPU)

OpenClaw — это автономный ИИ-ассистент, предназначенный для работы с локальными средами выполнения LLM, такими как Ollama, или с облачными моделями, такими как Claude Sonnet.