LLM

Cómo Ollama maneja las solicitudes en paralelo

Cómo Ollama maneja las solicitudes en paralelo

Comprende la concurrencia y la cola de Ollama, y aprende a ajustar OLLAMA_NUM_PARALLEL para solicitudes paralelas estables.

Esta guía explica cómo Ollama maneja las solicitudes paralelas (concurrencia, colas y límites de recursos), y cómo ajustarlo utilizando la variable de entorno OLLAMA_NUM_PARALLEL (y otros parámetros relacionados).

Prueba de Deepseek-R1 en Ollama

Prueba de Deepseek-R1 en Ollama

Comparando dos modelos deepseek-r1 con dos modelos base

DeepSeek’s primer generación de modelos de razonamiento con un rendimiento comparable al de OpenAI-o1, incluyendo seis modelos densos destilados de DeepSeek-R1 basados en Llama y Qwen.