A nova versão do Ollama é melhor que a anterior?

Nova versão do Ollama consome mais memória do que a anterior.

Modelo de escalonamento de alocação de memória na nova versão do Ollama - v0.12.1

Meu próprio teste de escalonamento do modelo ollama ```

Conteúdo da página

Aqui estou comparando quanto de VRAM a nova versão do Ollama alocando para o modelo com a versão anterior do Ollama. A nova versão é pior.

Como é dito no site oficial a nova versão do Ollama tem Nova programação de modelos com

Maximizando o uso da GPU:
A nova gestão de memória do Ollama aloca mais memória para a GPU,
aumentando a velocidade de geração e processamento de tokens

e são fornecidos alguns exemplos, por exemplo:

Contexto longo

    GPU: 1x NVIDIA GeForce RTX 4090
    Modelo: gemma3:12b
    Comprimento do contexto: 128k

Velocidade de geração de tokens antiga: 52.02 tokens/s  Velocidade de geração de tokens nova: 85.54 tokens/s
19.9GiB de VRAM                         21.4GiB de VRAM
48⁄49 camadas carregadas na GPU         49⁄49 camadas carregadas na GPU

Aqui estou testando como funciona no meu PC. Meus resultados são muito diferentes dos testes oficiais, são completamente opostos. Tenho uma configuração de hardware ligeiramente diferente e testei modelos diferentes, mas os resultados não são melhores de forma alguma, e frequentemente pior. Isso ecoa o post sobre Primeiros Sinais de Enshittificação do Ollama.

ollama llamas Esta imagem é de um post do blog no site do Ollama.

TL;DR

Testei como a nova versão de Ollama agende LLMs que não cabem na minha VRAM de 16GB.

mistral-small3.2:24b
qwen3:30b-a3b
gemma3:27b
qwen3:32b

Estava executando ollama run <modelname>, depois uma pergunta simples como quem é você?, E em um terminal separado verifiquei a resposta de ollama ps e nvidia-smi. Tudo bastante simples.

Apenas o qwen3:30b-a3b mostrou a mesma distribuição CPU/GPU, os outros três modelos foram empurrados mais para a CPU na nova versão. Nos meus testes, para minha decepção, a nova versão do Ollama é pior, e esses resultados contradizem o post no blog do Ollama.

Dados de comparação detalhada

Modelo	VRAM alocada versão antiga	CPU/GPU versão antiga	VRAM alocada nova versão	CPU/GPU nova versão
mistral-small3.2:24b	14489MiB	41%/59%	14249MiB	44%/56%
qwen3:30b-a3b	15065MiB	21%/79%	14867MiB	21%/79%
gemma3:27b	13771MiB	28%/72%	14817MiB	29%/71%
qwen3:32b	14676MiB	30%/70%	15139MiB	32%/68%

Desapontado.

TL;DR

Dados de comparação detalhada

Links úteis