Self-Hosting

Cómo Ollama maneja las solicitudes en paralelo

Cómo Ollama maneja las solicitudes en paralelo

Comprende la concurrencia y la cola de Ollama, y aprende a ajustar OLLAMA_NUM_PARALLEL para solicitudes paralelas estables.

Esta guía explica cómo Ollama maneja las solicitudes paralelas (concurrencia, colas y límites de recursos), y cómo ajustarlo utilizando la variable de entorno OLLAMA_NUM_PARALLEL (y otros parámetros relacionados).