Performance
Стратегии кэширования Hugo для повышения производительности
Оптимизация разработки и запуска сайтов на Hugo
Стратегии кэширования Hugo (https://www.glukhov.org/ru/post/2025/11/hugo-caching-strategies/ “Стратегии кэширования Hugo”) являются ключевыми для максимизации производительности вашего статического генератора сайтов. Хотя Hugo генерирует статические файлы, которые изначально быстры, правильное кэширование на нескольких уровнях может значительно улучшить время сборки, снизить нагрузку на сервер и повысить пользовательский опыт.
Сравнение производительности Ollama: NVIDIA DGX Spark против Mac Studio против RTX-4080
Бенчмарки GPT-OSS 120b на трёх платформах ИИ
Я выкопал некоторые интересные тесты производительности GPT-OSS 120b, работающего на Ollama на трех разных платформах: NVIDIA DGX Spark, Mac Studio и RTX 4080. Модель GPT-OSS 120b из библиотеки Ollama весит 65ГБ, что означает, что она не помещается в 16ГБ видеопамяти RTX 4080 (или более новой RTX 5080).
Проблемы структурированного вывода в Ollama GPT-OSS
Не очень приятно.
Модели GPT-OSS от Ollama (https://www.glukhov.org/ru/llm-performance/ollama/ollama-gpt-oss-structured-output-issues/ “Ollama GPT-OSS”) постоянно сталкиваются с проблемами при работе со структурированным выводом, особенно при использовании с фреймворками вроде LangChain, OpenAI SDK, vllm и другими.
Распределение памяти и планирование моделей в новой версии Ollama - v0.12.1
Мое собственное тестирование планирования моделей Ollama
Здесь я сравниваю, сколько VRAM новая версия Ollama выделяет для модели по сравнению с предыдущей версией. Новая версия работает хуже.
Производительность ЛЛМ и PCIe-каналы: ключевые аспекты
Думаете об установке второго GPU для LLMs?
Как количество PCIe-полос влияет на производительность LLM? Зависит от задачи. Для обучения и многопроцессорной инференции - значительное падение производительности.
Тест: Как Ollama использует производительность процессоров Intel и эффективные ядра
Ollama на процессорах Intel: эффективность против производительных ядер
У меня есть теория, которую нужно проверить - использование всех ядер Intel CPU повысит скорость работы LLMs? (Тест: Как Ollama использует производительность и эффективные ядра Intel CPU)
Меня беспокоит, что новая модель gemma3 27 бит (gemma3:27b, 17ГБ в ollama) не помещается в 16ГБ видеопамяти моей GPU и частично работает на CPU.
Как Ollama обрабатывает параллельные запросы
Настройка ollama для параллельного выполнения запросов.
Когда сервер Ollama получает два запроса одновременно, его поведение зависит от конфигурации и доступных системных ресурсов.
Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 и Phi — тест LLM
Следующий раунд тестирования LLM
Недавно был выпущен Mistral Small. Давайте посмотрим, как он справляется в сравнении с другими языковыми моделями (тестирование производительности Mistral Small).
Тест скорости работы крупных языковых моделей
Давайте протестируем скорость работы больших языковых моделей на GPU по сравнению с CPU
Сравнение скорости предсказания нескольких версий ЛЛМ: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (открытый исходный код) на CPU и GPU.