LLM Performance

Hur Ollama hanterar parallella begäranden

Hur Ollama hanterar parallella begäranden

Konfigurera ollama för parallell exekvering av begäranden.

När Ollama-servern får två begäranden samtidigt, beror dess beteende på dess konfiguration och tillgängliga systemresurser.

Gemma2 vs Qwen2 vs Mistral Nemo vs...

Gemma2 vs Qwen2 vs Mistral Nemo vs...

Testa upptäckt av logiska fall

Nyligen har vi sett flera nya LLM:er släppas. Spännande tider. Låt oss testa och se hur de presterar när de upptäcker logiska fall.

Hastighetstest för stora språkmodeller

Hastighetstest för stora språkmodeller

Låt oss testa LLM:s hastighet på GPU jämfört med CPU

Jämförelse av förutsägelsehastighet hos flera versioner av LLMs: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (open source) på CPU och GPU.