Modello di allocazione della memoria per la pianificazione nella nuova versione di Ollama - v0.12.1
Il mio test personale della pianificazione del modello ollama ```
Ecco il confronto tra quanta VRAM la nuova versione di Ollama alloca per il modello rispetto alla versione precedente di Ollama. La nuova versione è peggio.
Come detto sul sito ufficiale la nuova release di Ollama presenta Nuova gestione dei modelli
con
Massimizzazione dell'utilizzo della GPU:
La nuova gestione della memoria di Ollama alloca più memoria alla GPU,
aumentando la velocità di generazione e elaborazione dei token
e vengono forniti alcuni esempi, ad esempio:
Contesto lungo
GPU: 1x NVIDIA GeForce RTX 4090
Modello: gemma3:12b
Lunghezza del contesto: 128k
Vecchio Nuovo
52.02 token/s velocità di generazione dei token 85.54 token/s velocità di generazione dei token
19.9GiB di VRAM 21.4GiB di VRAM
48⁄49 strati caricati sulla GPU 49⁄49 strati caricati sulla GPU
Qui sto testando come funziona sul mio PC. I miei risultati sono molto diversi da quelli ufficiali, addirittura completamente opposti. Ho una configurazione hardware leggermente diversa e ho testato modelli diversi, ma i risultati non sono affatto migliori, e spesso peggiori. Questo è in linea con il post su Primi segni di Ollama Enshittification.
Questa immagine proviene dal post del blog sul sito ufficiale di Ollama.
TL;DR
Ho testato come la nuova versione di Ollama scheduling LLM che non entrano nel mio 16GB VRAM.
- mistral-small3.2:24b
- qwen3:30b-a3b
- gemma3:27b
- qwen3:32b
Stavo eseguendo ollama run <modelname>
, quindi una semplice domanda come chi sei?
, e in un terminale separato ho controllato la risposta di ollama ps
e nvidia-smi
. Tutto abbastanza semplice.
Solo qwen3:30b-a3b ha mostrato la stessa distribuzione CPU/GPU, gli altri tre modelli sono stati spostati maggiormente sulla CPU nella nuova versione. Nei miei test, a mia grande delusione, la nuova versione di Ollama è peggio, e questi risultati contraddicono il post sul blog di Ollama.
Dati di confronto dettagliati
Modello | VRAM allocata versione vecchia | CPU/GPU versione vecchia | VRAM allocata versione nuova | CPU/GPU versione nuova |
---|---|---|---|---|
mistral-small3.2:24b | 14489MiB | 41%/59% | 14249MiB | 44%/56% |
qwen3:30b-a3b | 15065MiB | 21%/79% | 14867MiB | 21%/79% |
gemma3:27b | 13771MiB | 28%/72% | 14817MiB | 29%/71% |
qwen3:32b | 14676MiB | 30%/70% | 15139MiB | 32%/68% |
Deluso.