Performance
Hugo Cachingstrategieën voor prestaties
Optimaliseer het ontwikkelen en uitvoeren van Hugo-sites
Hugo caching strategies zijn essentieel om de prestaties van uw statische site generator te maximaliseren. Hoewel Hugo statische bestanden genereert die inherent snel zijn, kan het implementeren van een correcte caching op meerdere lagen de bouwtijd aanzienlijk verbeteren, de serverbelasting verminderen en de gebruikerservaring verbeteren.
NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Ollama-prestatielijst
GPT-OSS 120b benchmarks op drie AI-platforms
Ik vond enkele interessante prestatietests van GPT-OSS 120b die draaien op Ollama over drie verschillende platforms: NVIDIA DGX Spark, Mac Studio, en RTX 4080. De GPT-OSS 120b model uit de Ollama bibliotheek weegt 65 GB, wat betekent dat het niet past in de 16 GB VRAM van een RTX 4080 (of de nieuwere RTX 5080).
Ollama GPT-OSS Structured Output Problemen
Niet erg aangenaam.
Ollama’s GPT-OSS modellen hebben herhalende problemen met het verwerken van gestructureerde uitvoer, vooral wanneer ze worden gebruikt met frameworks zoals LangChain, OpenAI SDK, vllm en anderen.
Geheugenallocatie en modelplanning in de nieuwe versie van Ollama - v0.12.1
Mijn eigen test van ollama model planning
Hier vergelijk ik hoeveel VRAM de nieuwe versie van Ollama toewijst aan het model hoeveel VRAM nieuwe versie van Ollama toewijst aan het model met de vorige Ollama-versie. De nieuwe versie is erger.
LLM-prestaties en PCIe-lanes: Belangrijke overwegingen
Denkt u aan het installeren van een tweede GPU voor LLMs?
Hoe beïnvloeden PCIe-lanes de prestaties van LLMs? Afhangend van de taak. Voor training en meervoudige GPU-inferentie - is de prestatievermindering aanzienlijk.
Test: Hoe Ollama Intel CPU-prestaties en efficiënte kernen gebruikt
Ollama op Intel CPU: Efficiëntie versus prestatiescores
Ik heb een theorie om te testen - als we alle kernen op een Intel CPU gebruiken, zou dat de snelheid van LLMs verhogen? Het irriteert me dat de nieuwe gemma3 27 bit model (gemma3:27b, 17 GB op ollama) niet in de 16 GB VRAM van mijn GPU past en gedeeltelijk op de CPU draait.
Hoe Ollama Parallel Verzoeken Behandelt
Ollama configureren voor het uitvoeren van parallelle aanvragen.
Wanneer de Ollama-server twee aanvragen tegelijkertijd ontvangt, hangt het gedrag ervan af van de configuratie en de beschikbare systeemresources.
Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 en Phi - LLM Test
Volgende ronde LLM-tests
Niet zo lang geleden is vrijgegeven. Laten we even op de hoogte komen en test hoe Mistral Small presteert vergeleken met andere LLMs.
Snelheidstest voor grote taalmodellen
Laat ons de snelheid van de LLMs testen op GPU versus CPU
Vergelijking van de voorspellingsnelheid van verschillende versies van LLMs: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (open source) op CPU en GPU.