LLM Performance

Как Ollama обрабатывает параллельные запросы

Как Ollama обрабатывает параллельные запросы

Понимание конкурентности и очереди в Ollama: как настроить OLLAMA_NUM_PARALLEL для стабильных параллельных запросов.

Это руководство объясняет, как Ollama обрабатывает параллельные запросы (конкурентность, очередь и лимиты ресурсов), а также как настроить его с помощью переменной окружения OLLAMA_NUM_PARALLEL (и связанных параметров).

Gemma2 против Qwen2 против Mistral Nemo против...

Gemma2 против Qwen2 против Mistral Nemo против...

Тестирование обнаружения логических ошибок

Недавно мы увидели несколько новых языковых моделей, которые были выпущены. Возбуждающие времена. Давайте протестируем и посмотрим, как они работают при обнаружении логических ошибок.

Тест скорости работы крупных языковых моделей

Тест скорости работы крупных языковых моделей

Давайте протестируем скорость работы больших языковых моделей на GPU по сравнению с CPU

Сравнение скорости предсказания нескольких версий ЛЛМ: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (открытый исходный код) на CPU и GPU.