LLM Performance

Hoe Ollama parallelle verzoeken afhandelt

Hoe Ollama parallelle verzoeken afhandelt

Begrijp Ollama-concurrentie, wachtrijen en hoe u OLLAMA_NUM_PARALLEL afstelt voor stabiele parallelle verzoeken.

Deze handleiding legt uit hoe Ollama параллель verzoeken afhandelt (concurentie, wachtrijen en resourcebeperkingen) en hoe u dit kunt optimaliseren met de OLLAMA_NUM_PARALLEL-omgevingsvariabele (en gerelateerde instellingen).

Gemma2 vs Qwen2 vs Mistral Nemo vs...

Gemma2 vs Qwen2 vs Mistral Nemo vs...

Testen van het detecteren van logische fouten

Onlangs hebben we meerdere nieuwe LLMs gezien die zijn vrijgegeven. Opwindende tijden. Laten we testen en zien hoe ze presteren bij het detecteren van logische fouten.

Snelheidstest voor grote taalmodellen

Snelheidstest voor grote taalmodellen

Laat ons de snelheid van de LLMs testen op GPU versus CPU

Vergelijking van de voorspellingsnelheid van verschillende versies van LLMs: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (open source) op CPU en GPU.