Modello di allocazione della memoria per la pianificazione nella nuova versione di Ollama - v0.12.1

Il mio test personale della pianificazione del modello ollama ```

Indice

Ecco il confronto tra quanta VRAM la nuova versione di Ollama alloca per il modello rispetto alla versione precedente di Ollama. La nuova versione è peggio.

Come detto sul sito ufficiale la nuova release di Ollama presenta Nuova gestione dei modelli con

Massimizzazione dell'utilizzo della GPU:
La nuova gestione della memoria di Ollama alloca più memoria alla GPU,
aumentando la velocità di generazione e elaborazione dei token

e vengono forniti alcuni esempi, ad esempio:

Contesto lungo

    GPU: 1x NVIDIA GeForce RTX 4090
    Modello: gemma3:12b
    Lunghezza del contesto: 128k

Vecchio                                   Nuovo
52.02 token/s velocità di generazione dei token 85.54 token/s velocità di generazione dei token
19.9GiB di VRAM                       21.4GiB di VRAM
48⁄49 strati caricati sulla GPU            49⁄49 strati caricati sulla GPU

Qui sto testando come funziona sul mio PC. I miei risultati sono molto diversi da quelli ufficiali, addirittura completamente opposti. Ho una configurazione hardware leggermente diversa e ho testato modelli diversi, ma i risultati non sono affatto migliori, e spesso peggiori. Questo è in linea con il post su Primi segni di Ollama Enshittification.

ollama llamas Questa immagine proviene dal post del blog sul sito ufficiale di Ollama.

TL;DR

Ho testato come la nuova versione di Ollama scheduling LLM che non entrano nel mio 16GB VRAM.

  • mistral-small3.2:24b
  • qwen3:30b-a3b
  • gemma3:27b
  • qwen3:32b

Stavo eseguendo ollama run <modelname>, quindi una semplice domanda come chi sei?, e in un terminale separato ho controllato la risposta di ollama ps e nvidia-smi. Tutto abbastanza semplice.

Solo qwen3:30b-a3b ha mostrato la stessa distribuzione CPU/GPU, gli altri tre modelli sono stati spostati maggiormente sulla CPU nella nuova versione. Nei miei test, a mia grande delusione, la nuova versione di Ollama è peggio, e questi risultati contraddicono il post sul blog di Ollama.

Dati di confronto dettagliati

Modello VRAM allocata versione vecchia CPU/GPU versione vecchia VRAM allocata versione nuova CPU/GPU versione nuova
mistral-small3.2:24b 14489MiB 41%/59% 14249MiB 44%/56%
qwen3:30b-a3b 15065MiB 21%/79% 14867MiB 21%/79%
gemma3:27b 13771MiB 28%/72% 14817MiB 29%/71%
qwen3:32b 14676MiB 30%/70% 15139MiB 32%/68%

Deluso.