LLM Performance

Qwen 3.6 27B и 35B MTP по сравнению со стандартными моделями на GPU с 16 ГБ видеопамяти

Qwen 3.6 27B и 35B MTP по сравнению со стандартными моделями на GPU с 16 ГБ видеопамяти

MTP и стандартное декодирование на RTX 4080 — реальные бенчмарки

Я протестировал производительность спекулятивного декодирования (Multi-Token Prediction, MTP) в моделях Qwen 3.6 27B и 35B на видеокарте RTX 4080 с 16 ГБ видеопамяти (VRAM).

Валидация структурированного вывода LLM на Python, которая работает надёжно

Валидация структурированного вывода LLM на Python, которая работает надёжно

Перестаньте полагаться на интуицию. Валидируйте контракты.

Большинство руководств по «структурированному выводу» (structured output) для больших языковых моделей (LLM) не обладают должной серьезностью. Они учат вас вежливо просить модель выдавать JSON и затем надеяться, что она поступит правильно. Это не валидация. Это оптимизм, обернутый в фигурные скобки.

Справочник по параметрам агентного вывода LLM для Qwen и Gemma

Справочник по параметрам агентного вывода LLM для Qwen и Gemma

Справочное руководство по настройке агентов LLM

Эта страница представляет собой практическое руководство по настройке агентов на базе LLM (температура, top_p, top_k, штрафы и их взаимодействие в многоступенчатых рабочих процессах с интенсивным использованием инструментов).

Бенчмарки LLM с 16 ГБ видеопамяти с использованием llama.cpp (скорость и контекст)

Бенчмарки LLM с 16 ГБ видеопамяти с использованием llama.cpp (скорость и контекст)

скорость обработки токенов llama.cpp на 16 ГБ VRAM (таблицы).

В этом посте я сравниваю скорость работы нескольких больших языковых моделей (LLM) на GPU с 16 ГБ видеопамяти (VRAM) и выбираю лучшую для самостоятельного хостинга.

Сравнение производительности LLM на Ollama на GPU с 16 ГБ VRAM

Сравнение производительности LLM на Ollama на GPU с 16 ГБ VRAM

Тест скорости LLM на RTX 4080 с 16 ГБ VRAM

Запуск больших языковых моделей локально обеспечивает конфиденциальность, возможность работы автономно и нулевые затраты на API. Это тестирование показывает, чего именно можно ожидать от 14 популярных LLM в Ollama на RTX 4080.

BAML против Instructor: структурированные выходные данные LLM

BAML против Instructor: структурированные выходные данные LLM

Type-safe LLM outputs with BAML and Instructor

При работе с большими языковыми моделями (LLM) в производственной среде получение структурированных и типобезопасных выходных данных имеет критическое значение. Два популярных фреймворка — BAML и Instructor — предлагают разные подходы к решению этой задачи.

Сравнение производительности Ollama: NVIDIA DGX Spark против Mac Studio против RTX-4080

Сравнение производительности Ollama: NVIDIA DGX Spark против Mac Studio против RTX-4080

Бенчмарки GPT-OSS 120b на трёх платформах ИИ

Я выкопал некоторые интересные тесты производительности GPT-OSS 120b, работающего на Ollama на трех разных платформах: NVIDIA DGX Spark, Mac Studio и RTX 4080. Модель GPT-OSS 120b из библиотеки Ollama весит 65ГБ, что означает, что она не помещается в 16ГБ видеопамяти RTX 4080 (или более новой RTX 5080).

ASIC для больших языковых моделей и специализированные чипы для вывода (почему они важны)

ASIC для больших языковых моделей и специализированные чипы для вывода (почему они важны)

ASIC и специализированные кремниевые решения повышают скорость и эффективность вывода LLM

Будущее ИИ связано не только с более умными моделями. Речь также идет о кремнии, который соответствует тому, как эти модели фактически обслуживаются. Специализированное оборудование для инференса LLM следует путем, напоминающим переход майнинга биткоинов с графических процессоров (GPU) на специализированные интегральные схемы (ASIC), только с более жесткими ограничениями, поскольку модели и схемы точности постоянно эволюционируют.

Сравнение: Qwen3:30b и GPT-OSS:20b

Сравнение: Qwen3:30b и GPT-OSS:20b

Сравнение скорости, параметров и производительности этих двух моделей

Ниже приведено сравнение Qwen3:30b и GPT-OSS:20b с акцентом на следовании инструкциям и параметрах производительности, спецификациях и скорости.

Проблемы структурированного вывода в Ollama GPT-OSS

Проблемы структурированного вывода в Ollama GPT-OSS

Не очень приятно.

Модели GPT-OSS от Ollama (https://www.glukhov.org/ru/llm-performance/ollama/ollama-gpt-oss-structured-output-issues/ “Ollama GPT-OSS”) постоянно сталкиваются с проблемами при работе со структурированным выводом, особенно при использовании с фреймворками вроде LangChain, OpenAI SDK, vllm и другими.

Сравнение структурированного вывода у популярных провайдеров LLM: OpenAI, Gemini, Anthropic, Mistral и AWS Bedrock

Сравнение структурированного вывода у популярных провайдеров LLM: OpenAI, Gemini, Anthropic, Mistral и AWS Bedrock

Для работы с несколько отличающимися API требуется особый подход.

Вот сравнительная таблица поддержки структурированного вывода (получение надежного JSON) у популярных провайдеров LLM, а также минимальные примеры на Python

Тест: Как Ollama использует производительность процессоров Intel и эффективные ядра

Тест: Как Ollama использует производительность процессоров Intel и эффективные ядра

Ollama на процессорах Intel: эффективность против производительных ядер

У меня есть теория, которую нужно проверить - использование всех ядер Intel CPU повысит скорость работы LLMs? (Тест: Как Ollama использует производительность и эффективные ядра Intel CPU)

Меня беспокоит, что новая модель gemma3 27 бит (gemma3:27b, 17ГБ в ollama) не помещается в 16ГБ видеопамяти моей GPU и частично работает на CPU.

Сравнение подходящих GPU NVIDIA для ИИ

Сравнение подходящих GPU NVIDIA для ИИ

Искусственный интеллект требует большого количества энергии...

В разгар современных потрясений я сравниваю технические характеристики различных видеокарт, подходящих для задач ИИ (Deep Learning, Обнаружение объектов и LLMs). Однако все они невероятно дороги.