Performance
Stratégies de mise en cache Hugo pour les performances
Optimiser le développement et l'exécution des sites Hugo
Stratégies de mise en cache avec Hugo sont essentielles pour maximiser les performances de votre générateur de site statique. Bien que Hugo génère des fichiers statiques qui sont naturellement rapides, la mise en œuvre d’une mise en cache appropriée à plusieurs niveaux peut améliorer considérablement les temps de construction, réduire la charge du serveur et améliorer l’expérience utilisateur.
NVIDIA DGX Spark vs Mac Studio vs RTX-4080 : Comparaison des performances d'Ollama
Benchmarks GPT-OSS 120b sur trois plateformes d'IA
J’ai découvert des tests de performance intéressants sur l’exécution du modèle GPT-OSS 120b avec Ollama sur trois plateformes différentes : NVIDIA DGX Spark, Mac Studio, et RTX 4080. Le modèle GPT-OSS 120b de la bibliothèque Ollama pèse 65 Go, ce qui signifie qu’il ne peut pas s’exécuter dans les 16 Go de VRAM d’un RTX 4080 (ou sur le plus récent RTX 5080).
Problèmes de sortie structurée d'Ollama GPT-OSS
Peu agréable.
Les modèles GPT-OSS d’Ollama présentent régulièrement des problèmes pour gérer les sorties structurées, surtout lorsqu’ils sont utilisés avec des cadres comme LangChain, OpenAI SDK, vllm et d’autres.
Allocation de mémoire et planification du modèle dans la nouvelle version d'Ollama - v0.12.1
Mon propre test de planification du modèle ollama
Ici, je compare la quantité de VRAM allouée par la nouvelle version d’Ollama au modèle par rapport à la version précédente d’Ollama. La nouvelle version est pire.
Performance des LLM et voies PCIe : Points clés à considérer
Pensez-vous à installer une deuxième carte graphique pour les LLM ?
Comment les canaux PCIe affectent les performances des LLM ? Selon la tâche. Pour l’entraînement et l’inférence multi-GPU, la baisse de performance est significative.
Test : Comment Ollama utilise les performances du processeur Intel et les cœurs efficaces
Ollama sur processeur Intel : cœurs d'efficacité vs cœurs de performance
J’ai une théorie à tester - si l’utilisation de tous les cœurs d’un processeur Intel augmenterait la vitesse des LLM ? Cela me tracasse que le nouveau modèle gemma3 27 bit (gemma3:27b, 17 Go sur ollama) ne tienne pas dans les 16 Go de VRAM de mon GPU, et qu’il s’exécute partiellement sur le CPU.
Comment Ollama gère les requêtes parallèles
Configurer ollama pour l'exécution de requêtes en parallèle.
Lorsque le serveur Ollama reçoit deux demandes en même temps, son comportement dépend de sa configuration et des ressources système disponibles.
Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 et Phi - Test des modèles de langage
Prochaine série de tests LLM
Il y a peu de temps, a été publié. Commençons par un point sur la mise à jour et testons comment Mistral Small se compare aux autres LLMs ici.
Test de vitesse des grands modèles de langage
Testons la vitesse des LLM sur GPU vs CPU
Comparaison de la vitesse de prédiction de plusieurs versions de LLMs : llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (open source) sur CPU et GPU.