Modelo de escalonamento de alocação de memória na nova versão do Ollama - v0.12.1
Meu próprio teste de escalonamento do modelo ollama ```
Aqui estou comparando quanto de VRAM a nova versão do Ollama alocando para o modelo com a versão anterior do Ollama. A nova versão é pior.
Como é dito no site oficial a nova versão do Ollama tem Nova programação de modelos
com
Maximizando o uso da GPU:
A nova gestão de memória do Ollama aloca mais memória para a GPU,
aumentando a velocidade de geração e processamento de tokens
e são fornecidos alguns exemplos, por exemplo:
Contexto longo
GPU: 1x NVIDIA GeForce RTX 4090
Modelo: gemma3:12b
Comprimento do contexto: 128k
Velocidade de geração de tokens antiga: 52.02 tokens/s Velocidade de geração de tokens nova: 85.54 tokens/s
19.9GiB de VRAM 21.4GiB de VRAM
48⁄49 camadas carregadas na GPU 49⁄49 camadas carregadas na GPU
Aqui estou testando como funciona no meu PC. Meus resultados são muito diferentes dos testes oficiais, são completamente opostos. Tenho uma configuração de hardware ligeiramente diferente e testei modelos diferentes, mas os resultados não são melhores de forma alguma, e frequentemente pior. Isso ecoa o post sobre Primeiros Sinais de Enshittificação do Ollama.
Esta imagem é de um post do blog no site do Ollama.
TL;DR
Testei como a nova versão de Ollama agende LLMs que não cabem na minha VRAM de 16GB.
- mistral-small3.2:24b
- qwen3:30b-a3b
- gemma3:27b
- qwen3:32b
Estava executando ollama run <modelname>
, depois uma pergunta simples como quem é você?
, E em um terminal separado verifiquei a resposta de ollama ps
e nvidia-smi
. Tudo bastante simples.
Apenas o qwen3:30b-a3b mostrou a mesma distribuição CPU/GPU, os outros três modelos foram empurrados mais para a CPU na nova versão. Nos meus testes, para minha decepção, a nova versão do Ollama é pior, e esses resultados contradizem o post no blog do Ollama.
Dados de comparação detalhada
Modelo | VRAM alocada versão antiga | CPU/GPU versão antiga | VRAM alocada nova versão | CPU/GPU nova versão |
---|---|---|---|---|
mistral-small3.2:24b | 14489MiB | 41%/59% | 14249MiB | 44%/56% |
qwen3:30b-a3b | 15065MiB | 21%/79% | 14867MiB | 21%/79% |
gemma3:27b | 13771MiB | 28%/72% | 14817MiB | 29%/71% |
qwen3:32b | 14676MiB | 30%/70% | 15139MiB | 32%/68% |
Desapontado.