AI - Page 2 - Рост Глухов | Персональный сайт и технический блог

FLUX.1-Kontext-dev: ИИ для преобразования изображений

Black Forest Labs выпустила FLUX.1-Kontext-dev, продвинутую модель искусственного интеллекта для преобразования изображений, которая дополняет существующие изображения с помощью текстовых инструкций.

Добавление поддержки GPU NVIDIA в Docker Model Runner

Docker Model Runner — это официальный инструмент Docker для запуска моделей ИИ локально, но включение ускорения NVidia GPU в Docker Model Runner требует специальной настройки.

Снижение затрат на LLM: стратегии оптимизации токенов

Оптимизация токенов — это критический навык, отличающий экономически эффективные приложения на основе LLM от экспериментов, разоряющих бюджет.

Самостоятельное размещение Immich: частное фотооблако

Immich — это революционное открытое программное обеспечение с открытым исходным кодом для управления фотографиями и видео, которое дает вам полный контроль над вашими воспоминаниями. С функциями, сопоставимыми с Google Photos, включая распознавание лиц с использованием ИИ, умный поиск и автоматическое резервное копирование с мобильных устройств, при этом все ваши данные остаются конфиденциальными и защищенными на вашем собственном сервере.

Сравнение производительности Ollama: NVIDIA DGX Spark против Mac Studio против RTX-4080

Я выкопал некоторые интересные тесты производительности GPT-OSS 120b, работающей на Ollama на трех разных платформах: NVIDIA DGX Spark, Mac Studio и RTX 4080. Модель GPT-OSS 120b из библиотеки Ollama весит 65ГБ, что означает, что она не помещается в 16ГБ видеопамяти RTX 4080 (или более новой RTX 5080).

Создание серверов MCP на Python: руководство по веб-поиску и парсингу

Протокол Контекста Модели (MCP) революционизирует способ взаимодействия ИИ-ассистентов с внешними источниками данных и инструментами. В этом руководстве мы исследуем, как строить MCP-серверы на Python, с примерами, сосредоточенными на возможностях веб-поиска и парсинга.

Шпаргалка Docker Model Runner: команды и примеры

Docker Model Runner (DMR) — это официальное решение Docker для запуска моделей ИИ локально, представленное в апреле 2025 года. Этот справочник предоставляет быстрый доступ ко всем основным командам, настройкам и лучшим практикам.

Docker Model Runner против Ollama: что выбрать?

Запуск больших языковых моделей (LLM) локально стал все более популярным благодаря конфиденциальности, контролю затрат и возможностям работы офлайн. Ландшафт значительно изменился в апреле 2025 года, когда Docker представил Docker Model Runner (DMR), свое официальное решение для развертывания моделей ИИ.

Продвижение ASIC для LLM: Почему аппаратное обеспечение инференса имеет значение

Будущее ИИ не ограничивается более умными моделями - это также вопрос более умного железа. Специализированное оборудование для инференса ЛЛМ приводит к революции, аналогичной переходу майнинга биткоинов к ASIC.

DGX Spark против Mac Studio: сравнение цен на персональный суперкомпьютер NVIDIA для ИИ

NVIDIA DGX Spark — это реальное устройство, которое поступит в продажу 15 октября 2025 года, и оно предназначено для разработчиков CUDA, которым нужна локальная работа с LLM с интегрированным NVIDIA AI stack. Рекомендуемая розничная цена в США — $3,999; в Великобритании, Германии и Японии розничные цены выше из-за НДС и каналов сбыта. Австралийские и корейские вон пока не опубликованы широко.

Клиенты Go для Ollama: сравнение SDK и примеры Qwen3/GPT-OSS

Это руководство предоставляет всесторонний обзор доступных Go SDK для Ollama и сравнивает их функциональные возможности.

Вот сравнение между Qwen3:30b и GPT-OSS:20b с акцентом на выполнение инструкций и параметры производительности, спецификации и скорость:

Проблемы со структурированным выводом в Ollama GPT-OSS

Модели GPT-OSS от Ollama регулярно сталкиваются с проблемами при работе со структурированным выводом, особенно в сочетании с фреймворками, такими как LangChain, OpenAI SDK, vllm и другими.

LLM и структурированный вывод: Ollama, Qwen3 & Python или Go

Большие языковые модели (LLM) мощные, но в производстве мы редко хотим свободноформатных абзацев. Вместо этого нам нужны предсказуемые данные: атрибуты, факты или структурированные объекты, которые можно передать в приложение. Это Структурированный вывод LLM.

Планировщик моделей и распределения памяти в новой версии Ollama - v0.12.1

Здесь я сравниваю, сколько видеопамяти новая версия Ollama выделяет для модели по сравнению с предыдущей версией. Новая версия работает хуже.

Ollama быстро стал одним из самых популярных инструментов для запуска локальных больших языковых моделей. Его простой интерфейс командной строки и упрощенное управление моделями сделали его предпочтительным вариантом для разработчиков, желающих работать с моделями ИИ вне облака. Но как и многие перспективные платформы, уже появляются признаки Enshittification:

AI

FLUX.1-Kontext-dev: ИИ для преобразования изображений

Добавление поддержки GPU NVIDIA в Docker Model Runner

Снижение затрат на LLM: стратегии оптимизации токенов

Самостоятельное размещение Immich: частное фотооблако

Сравнение производительности Ollama: NVIDIA DGX Spark против Mac Studio против RTX-4080

Создание серверов MCP на Python: руководство по веб-поиску и парсингу

Шпаргалка Docker Model Runner: команды и примеры

Docker Model Runner против Ollama: что выбрать?

Продвижение ASIC для LLM: Почему аппаратное обеспечение инференса имеет значение

DGX Spark против Mac Studio: сравнение цен на персональный суперкомпьютер NVIDIA для ИИ

Клиенты Go для Ollama: сравнение SDK и примеры Qwen3/GPT-OSS

Сравнение: Qwen3:30b против GPT-OSS:20b

Проблемы со структурированным выводом в Ollama GPT-OSS

LLM и структурированный вывод: Ollama, Qwen3 & Python или Go

Планировщик моделей и распределения памяти в новой версии Ollama - v0.12.1

Оллама Эншитификация - ранние признаки