Performance

Stratégies de mise en cache Hugo pour les performances

Stratégies de mise en cache Hugo pour les performances

Optimiser le développement et l'exécution des sites Hugo

Stratégies de mise en cache avec Hugo sont essentielles pour maximiser les performances de votre générateur de site statique. Bien que Hugo génère des fichiers statiques qui sont naturellement rapides, la mise en œuvre d’une mise en cache appropriée à plusieurs niveaux peut améliorer considérablement les temps de construction, réduire la charge du serveur et améliorer l’expérience utilisateur.

NVIDIA DGX Spark vs Mac Studio vs RTX-4080 : Comparaison des performances d'Ollama

NVIDIA DGX Spark vs Mac Studio vs RTX-4080 : Comparaison des performances d'Ollama

Benchmarks GPT-OSS 120b sur trois plateformes d'IA

J’ai découvert des tests de performance intéressants sur l’exécution du modèle GPT-OSS 120b avec Ollama sur trois plateformes différentes : NVIDIA DGX Spark, Mac Studio, et RTX 4080. Le modèle GPT-OSS 120b de la bibliothèque Ollama pèse 65 Go, ce qui signifie qu’il ne peut pas s’exécuter dans les 16 Go de VRAM d’un RTX 4080 (ou sur le plus récent RTX 5080).

Comment Ollama gère les requêtes parallèles

Comment Ollama gère les requêtes parallèles

Configurer ollama pour l'exécution de requêtes en parallèle.

Lorsque le serveur Ollama reçoit deux demandes en même temps, son comportement dépend de sa configuration et des ressources système disponibles.

Test de vitesse des grands modèles de langage

Test de vitesse des grands modèles de langage

Testons la vitesse des LLM sur GPU vs CPU

Comparaison de la vitesse de prédiction de plusieurs versions de LLMs : llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (open source) sur CPU et GPU.