È la nuova versione di Ollama migliore rispetto alla precedente?

Nuova versione di Ollama che consuma più memoria rispetto alla precedente.

Modello di allocazione della memoria per la pianificazione nella nuova versione di Ollama - v0.12.1

Il mio test personale della pianificazione del modello ollama ```

Indice

Ecco il confronto tra quanta VRAM la nuova versione di Ollama alloca per il modello rispetto alla versione precedente di Ollama. La nuova versione è peggio.

Come detto sul sito ufficiale la nuova release di Ollama presenta Nuova gestione dei modelli con

Massimizzazione dell'utilizzo della GPU:
La nuova gestione della memoria di Ollama alloca più memoria alla GPU,
aumentando la velocità di generazione e elaborazione dei token

e vengono forniti alcuni esempi, ad esempio:

Contesto lungo

    GPU: 1x NVIDIA GeForce RTX 4090
    Modello: gemma3:12b
    Lunghezza del contesto: 128k

Vecchio                                   Nuovo
52.02 token/s velocità di generazione dei token 85.54 token/s velocità di generazione dei token
19.9GiB di VRAM                       21.4GiB di VRAM
48⁄49 strati caricati sulla GPU            49⁄49 strati caricati sulla GPU

Qui sto testando come funziona sul mio PC. I miei risultati sono molto diversi da quelli ufficiali, addirittura completamente opposti. Ho una configurazione hardware leggermente diversa e ho testato modelli diversi, ma i risultati non sono affatto migliori, e spesso peggiori. Questo è in linea con il post su Primi segni di Ollama Enshittification.

ollama llamas Questa immagine proviene dal post del blog sul sito ufficiale di Ollama.

TL;DR

Ho testato come la nuova versione di Ollama scheduling LLM che non entrano nel mio 16GB VRAM.

mistral-small3.2:24b
qwen3:30b-a3b
gemma3:27b
qwen3:32b

Stavo eseguendo ollama run <modelname>, quindi una semplice domanda come chi sei?, e in un terminale separato ho controllato la risposta di ollama ps e nvidia-smi. Tutto abbastanza semplice.

Solo qwen3:30b-a3b ha mostrato la stessa distribuzione CPU/GPU, gli altri tre modelli sono stati spostati maggiormente sulla CPU nella nuova versione. Nei miei test, a mia grande delusione, la nuova versione di Ollama è peggio, e questi risultati contraddicono il post sul blog di Ollama.

Dati di confronto dettagliati

Modello	VRAM allocata versione vecchia	CPU/GPU versione vecchia	VRAM allocata versione nuova	CPU/GPU versione nuova
mistral-small3.2:24b	14489MiB	41%/59%	14249MiB	44%/56%
qwen3:30b-a3b	15065MiB	21%/79%	14867MiB	21%/79%
gemma3:27b	13771MiB	28%/72%	14817MiB	29%/71%
qwen3:32b	14676MiB	30%/70%	15139MiB	32%/68%

Deluso.

TL;DR

Dati di confronto dettagliati

Link utili