Modelo de programación de asignación de memoria en la nueva versión de Ollama - v0.12.1

Mi propia prueba de programación del modelo ollama ```

Índice

Aquí estoy comparando cuánta VRAM asigna la nueva versión de Ollama al modelo con la versión anterior de Ollama. La nueva versión es peor.

Como se menciona en el sitio web oficial la nueva versión de Ollama tiene Nueva programación de modelos con

Maximizando el uso de la GPU:
La nueva gestión de memoria de Ollama asigna más memoria a la GPU,
aumentando la velocidad de generación y procesamiento de tokens

y se dan algunos ejemplos, por ejemplo:

Contexto largo

    GPU: 1x NVIDIA GeForce RTX 4090
    Modelo: gemma3:12b
    Longitud del contexto: 128k

Antiguo                                   Nuevo
52.02 tokens/s velocidad de generación de tokens 85.54 tokens/s velocidad de generación de tokens
19.9GiB de VRAM                           21.4GiB de VRAM
48⁄49 capas cargadas en la GPU            49⁄49 capas cargadas en la GPU

Aquí estoy probando cómo funciona en mi PC. Mis resultados son muy diferentes a los de los tests oficiales, son completamente opuestos. Tengo una configuración ligeramente diferente de hardware y probé modelos diferentes, pero los resultados no son mejores en absoluto, y a menudo peores. Esto refleja el post sobre Primeras señales de Enshittificación de Ollama.

ollama llamas Esta imagen es del blog post en el sitio web de Ollama.

TL;DR

He probado cómo la nueva versión de Ollama programa LLMs que no caben en mi VRAM de 16GB.

  • mistral-small3.2:24b
  • qwen3:30b-a3b
  • gemma3:27b
  • qwen3:32b

Estaba ejecutando ollama run <modelname>, luego una pregunta simple como ¿quién eres?, y en otro terminal revisé la respuesta de ollama ps y nvidia-smi. Todo bastante sencillo.

Solo qwen3:30b-a3b mostró la misma distribución CPU/GPU, los otros tres modelos se pusieron más en la CPU en la nueva versión. En mis pruebas, a mi decepción, la nueva versión de Ollama es peor, y estos resultados contradicen el post del blog de Ollama.

Comparación detallada de datos

Modelo VRAM asignada en versión antigua CPU/GPU en versión antigua VRAM asignada en nueva versión CPU/GPU en nueva versión
mistral-small3.2:24b 14489MiB 41%/59% 14249MiB 44%/56%
qwen3:30b-a3b 15065MiB 21%/79% 14867MiB 21%/79%
gemma3:27b 13771MiB 28%/72% 14817MiB 29%/71%
qwen3:32b 14676MiB 30%/70% 15139MiB 32%/68%

Decepcionado.

Enlaces útiles