LLM Performance

Porównanie przydatności kart graficznych NVidia w zastosowaniach AI

Wśród współczesnych burz porównuję specyfikacje techniczne różnych kart odpowiednich do zadań w zakresie AI (Deep Learning, Object Detection oraz LLMs). Są one jednak niezwykle drogie.

Ten przewodnik wyjaśnia jak Ollama obsługuje równoległe żądania (konkurencja, kolejki i limity zasobów) oraz jak je dostosować przy użyciu zmiennej środowiskowej OLLAMA_NUM_PARALLEL (i powiązanych ustawień).

Nieco wcześniej wydano. Przejdźmy do sprawy i
testuj jak Mistral Small radzi sobie w porównaniu do innych LLM.

Niedawno widzieliśmy kilka nowych LLM, które zostały wydane. Wspaniałe czasy. Zróbmy test i zobaczmy, jak działają, gdy wykrywają błędy logiczne.

Testowanie zachowania modeli o różnej liczbie parametrów i różnym stopniu kwantyzacji.

Porównanie prędkości przewidywania kilku wersji LLM: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (open source) na CPU i GPU.

LLM Performance

Porównanie przydatności kart graficznych NVidia w zastosowaniach AI

Jak Ollama obsługuje równoległe żądania

Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 i Phi – test modeli językowych

Gemma2 vs Qwen2 vs Mistral Nemo vs...

Porównanie możliwości skracania LLM

Test prędkości modeli dużych języków