LLM Performance

Спекулятивное декодирование: ускорение вывода LLM на 20–50%

Модель объемом 70 миллиардов параметров генерирует один токен за один прямой проход, и при каждом проходе веса перезагружаются из видеопамяти (VRAM), вычисляется внимание (attention) по всему контексту и синхронизируется память. Между токенами GPU простаивает, ожидая разрешения последовательных зависимостей.

Qwen 3.6 27B и 35B MTP по сравнению со стандартными моделями на GPU с 16 ГБ видеопамяти

Я протестировал производительность спекулятивного декодирования (Multi-Token Prediction, MTP) в моделях Qwen 3.6 27B и 35B на видеокарте RTX 4080 с 16 ГБ видеопамяти (VRAM).

Валидация структурированного вывода LLM на Python, которая работает надёжно

Большинство руководств по «структурированному выводу» (structured output) для больших языковых моделей (LLM) не обладают должной серьезностью. Они учат вас вежливо просить модель выдавать JSON и затем надеяться, что она поступит правильно. Это не валидация. Это оптимизм, обернутый в фигурные скобки.

Справочник по параметрам агентного вывода LLM для Qwen и Gemma

Эта страница представляет собой практическое руководство по настройке агентов на базе LLM (температура, top_p, top_k, штрафы и их взаимодействие в многоступенчатых рабочих процессах с интенсивным использованием инструментов).

Бенчмарки LLM с 16 ГБ видеопамяти с использованием llama.cpp (скорость и контекст)

В этом посте я сравниваю скорость работы нескольких больших языковых моделей (LLM) на GPU с 16 ГБ видеопамяти (VRAM) и выбираю лучшую для самостоятельного хостинга.

Производительность LLM в 2026 году: бенчмарки, узкие места и оптимизация

A performance engineering hub for running LLMs efficiently: runtime behavior, bottlenecks, benchmarks, and the real constraints that shape throughput and latency.

Сравнение производительности LLM на Ollama на GPU с 16 ГБ VRAM

Запуск больших языковых моделей локально обеспечивает конфиденциальность, возможность работы автономно и нулевые затраты на API. Это тестирование показывает, чего именно можно ожидать от 14 популярных LLM в Ollama на RTX 4080.

BAML против Instructor: структурированные выходные данные LLM

При работе с большими языковыми моделями (LLM) в производственной среде получение структурированных и типобезопасных выходных данных имеет критическое значение. Два популярных фреймворка — BAML и Instructor — предлагают разные подходы к решению этой задачи.

Сравнение производительности Ollama: NVIDIA DGX Spark против Mac Studio против RTX-4080

Я выкопал некоторые интересные тесты производительности GPT-OSS 120b, работающего на Ollama на трех разных платформах: NVIDIA DGX Spark, Mac Studio и RTX 4080. Модель GPT-OSS 120b из библиотеки Ollama весит 65ГБ, что означает, что она не помещается в 16ГБ видеопамяти RTX 4080 (или более новой RTX 5080).

ASIC для больших языковых моделей и специализированные чипы для вывода (почему они важны)

Будущее ИИ связано не только с более умными моделями. Речь также идет о кремнии, который соответствует тому, как эти модели фактически обслуживаются. Специализированное оборудование для инференса LLM следует путем, напоминающим переход майнинга биткоинов с графических процессоров (GPU) на специализированные интегральные схемы (ASIC), только с более жесткими ограничениями, поскольку модели и схемы точности постоянно эволюционируют.

Ниже приведено сравнение Qwen3:30b и GPT-OSS:20b с акцентом на следовании инструкциям и параметрах производительности, спецификациях и скорости.

Проблемы структурированного вывода в Ollama GPT-OSS

Модели GPT-OSS от Ollama (https://www.glukhov.org/ru/llm-performance/ollama/ollama-gpt-oss-structured-output-issues/ “Ollama GPT-OSS”) постоянно сталкиваются с проблемами при работе со структурированным выводом, особенно при использовании с фреймворками вроде LangChain, OpenAI SDK, vllm и другими.

Сравнение структурированного вывода у популярных провайдеров LLM: OpenAI, Gemini, Anthropic, Mistral и AWS Bedrock

Вот сравнительная таблица поддержки структурированного вывода (получение надежного JSON) у популярных провайдеров LLM, а также минимальные примеры на Python

Распределение памяти и планирование моделей в новой версии Ollama - v0.12.1

Здесь я сравниваю, сколько VRAM новая версия Ollama выделяет для модели по сравнению с предыдущей версией. Новая версия работает хуже.

Производительность ЛЛМ и PCIe-каналы: ключевые аспекты

Как количество PCIe-полос влияет на производительность LLM? Зависит от задачи. Для обучения и многопроцессорной инференции - значительное падение производительности.

Тест: Как Ollama использует производительность процессоров Intel и эффективные ядра

У меня есть теория, которую нужно проверить - использование всех ядер Intel CPU повысит скорость работы LLMs? (Тест: Как Ollama использует производительность и эффективные ядра Intel CPU)

Меня беспокоит, что новая модель gemma3 27 бит (gemma3:27b, 17ГБ в ollama) не помещается в 16ГБ видеопамяти моей GPU и частично работает на CPU.