LLM Performance

Jak Ollama obsługuje równoległe żądania

Jak Ollama obsługuje równoległe żądania

Zrozumienie współbieżności, kolejek w Ollama oraz optymalizacja parametru OLLAMA_NUM_PARALLEL dla stabilnych równoległych żądań.

Ten przewodnik wyjaśnia jak Ollama obsługuje równoległe żądania (konkurencja, kolejki i limity zasobów) oraz jak je dostosować przy użyciu zmiennej środowiskowej OLLAMA_NUM_PARALLEL (i powiązanych ustawień).

Gemma2 vs Qwen2 vs Mistral Nemo vs...

Gemma2 vs Qwen2 vs Mistral Nemo vs...

Testowanie wykrywania błędnego rozumowania

Niedawno widzieliśmy kilka nowych LLM, które zostały wydane. Wspaniałe czasy. Zróbmy test i zobaczmy, jak działają, gdy wykrywają błędy logiczne.

Test prędkości modeli dużych języków

Test prędkości modeli dużych języków

Sprawdźmy prędkość LLM na GPU vs CPU

Porównanie prędkości przewidywania kilku wersji LLM: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (open source) na CPU i GPU.