LLM Performance

Бенчмарки LLM с 16 ГБ видеопамяти при использовании llama.cpp: скорость и контекст

Здесь я сравниваю скорость работы нескольких больших языковых моделей (LLM) на GPU с 16 ГБ видеопамяти (VRAM) и выбираю лучший вариант для локального развертывания.

Сравнение производительности больших языковых моделей на Ollama с видеокартой 16 ГБ VRAM

Запуск крупных языковых моделей локально обеспечивает вам конфиденциальность, возможность работы оффлайн и отсутствие затрат на API. Этот бенчмарк раскрывает, чего именно можно ожидать от 14 популярных LLMs на Ollama на RTX 4080.

Сравнение производительности Ollama: NVIDIA DGX Spark против Mac Studio против RTX-4080

Я выкопал некоторые интересные тесты производительности GPT-OSS 120b, работающего на Ollama на трех разных платформах: NVIDIA DGX Spark, Mac Studio и RTX 4080. Модель GPT-OSS 120b из библиотеки Ollama весит 65ГБ, что означает, что она не помещается в 16ГБ видеопамяти RTX 4080 (или более новой RTX 5080).

Возвышение ASIC для LLM: Почему аппаратное обеспечение инференса имеет значение

Будущее ИИ не ограничивается более умными моделями - это также вопрос более умного кремния. Специализированное оборудование для инференса ЛЛМ приводит к революции, аналогичной переходу майнинга биткоинов к ASIC.

Вот сравнение между Qwen3:30b и GPT-OSS:20b, с акцентом на выполнение инструкций и параметры производительности, спецификации и скорость.

Проблемы структурированного вывода в Ollama GPT-OSS

Модели GPT-OSS от Ollama (https://www.glukhov.org/ru/llm-performance/ollama/ollama-gpt-oss-structured-output-issues/ “Ollama GPT-OSS”) постоянно сталкиваются с проблемами при работе со структурированным выводом, особенно при использовании с фреймворками вроде LangChain, OpenAI SDK, vllm и другими.

Распределение памяти и планирование моделей в новой версии Ollama - v0.12.1

Здесь я сравниваю, сколько VRAM новая версия Ollama выделяет для модели по сравнению с предыдущей версией. Новая версия работает хуже.

Производительность ЛЛМ и PCIe-каналы: ключевые аспекты

Как количество PCIe-полос влияет на производительность LLM? Зависит от задачи. Для обучения и многопроцессорной инференции - значительное падение производительности.

Тест: Как Ollama использует производительность процессоров Intel и эффективные ядра

У меня есть теория, которую нужно проверить - использование всех ядер Intel CPU повысит скорость работы LLMs? (Тест: Как Ollama использует производительность и эффективные ядра Intel CPU)

Меня беспокоит, что новая модель gemma3 27 бит (gemma3:27b, 17ГБ в ollama) не помещается в 16ГБ видеопамяти моей GPU и частично работает на CPU.

В разгар современных потрясений я сравниваю технические характеристики различных видеокарт, подходящих для задач ИИ (Deep Learning, Обнаружение объектов и LLMs). Однако все они невероятно дороги.

Как Ollama обрабатывает параллельные запросы

Когда сервер Ollama получает два запроса одновременно, его поведение зависит от конфигурации и доступных системных ресурсов.

Недавно был выпущен Mistral Small. Давайте посмотрим, как он справляется в сравнении с другими языковыми моделями (тестирование производительности Mistral Small).

Недавно мы увидели несколько новых языковых моделей, которые были выпущены. Возбуждающие времена. Давайте протестируем и посмотрим, как они работают при обнаружении логических ошибок.

Сравнение способностей LLM к суммированию

Исследование поведения моделей с разным количеством параметров и квантования.

Сравнение скорости предсказания нескольких версий ЛЛМ: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (открытый исходный код) на CPU и GPU.

LLM Performance

Бенчмарки LLM с 16 ГБ видеопамяти при использовании llama.cpp: скорость и контекст

Сравнение производительности больших языковых моделей на Ollama с видеокартой 16 ГБ VRAM

Сравнение производительности Ollama: NVIDIA DGX Spark против Mac Studio против RTX-4080

Возвышение ASIC для LLM: Почему аппаратное обеспечение инференса имеет значение

Сравнение: Qwen3:30b против GPT-OSS:20b

Проблемы структурированного вывода в Ollama GPT-OSS

Распределение памяти и планирование моделей в новой версии Ollama - v0.12.1

Производительность ЛЛМ и PCIe-каналы: ключевые аспекты

Тест: Как Ollama использует производительность процессоров Intel и эффективные ядра

Сравнение подходящих GPU NVIDIA для ИИ

Как Ollama обрабатывает параллельные запросы

Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 и Phi — тест LLM

Gemma2 против Qwen2 против Mistral Nemo против...

Сравнение способностей LLM к суммированию

Тест скорости работы крупных языковых моделей