LLM Performance

Hur Ollama hanterar parallella begäran

Hur Ollama hanterar parallella begäran

Förstå Ollamas konkurrens, köhantering och hur du anpassar OLLAMA_NUM_PARALLEL för stabila parallella begäran.

Den här guiden förklarar hur Ollama hanterar parallella begäran (konkurrens, köhantering och resursbegränsningar) och hur du kan justera det med hjälp av miljövariabeln OLLAMA_NUM_PARALLEL (och relaterade inställningar).

Gemma2 vs Qwen2 vs Mistral Nemo vs...

Gemma2 vs Qwen2 vs Mistral Nemo vs...

Testa upptäckt av logiska fall

Nyligen har vi sett flera nya LLM:er släppas. Spännande tider. Låt oss testa och se hur de presterar när de upptäcker logiska fall.

Hastighetstest för stora språkmodeller

Hastighetstest för stora språkmodeller

Låt oss testa LLM:s hastighet på GPU jämfört med CPU

Jämförelse av förutsägelsehastighet hos flera versioner av LLMs: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (open source) på CPU och GPU.