为什么 docker-compose.yml 中的 context_size 不适用于 docker/model-runner 镜像？

docker/model-runner:latest-cuda 镜像在调用 llama.cpp 时硬编码了 –ctx-size 4096，会忽略模型部分中的 context_size 参数。这是当前实现的一个已知限制。

每次API请求时可以更改上下文大小吗？

不，上下文大小是在模型初始化时设置的，而不是每个请求单独设置。您只能通过API请求中的max_tokens参数来控制输出长度。

“Docker 模型配置中的 –context-size 参数是否有效？”

是的，但仅在直接使用 docker model run 时有效。当使用 docker-compose 并搭配 docker/model-runner 镜像时，该配置会被忽略。

如何验证实际使用的上下文大小？

使用 docker compose logs 2>&1 | grep -i "n_ctx" 查看 docker compose 日志，以确认 llama.cpp 实际使用的上下文大小（n_ctx）。

使用自定义上下文大小的最佳方法是什么？

使用 docker model package –context-size 打包自己的模型，或使用 docker model configure 进行直接的 docker 模型运行命令。对于 docker-compose，可能需要等待未来支持 context_size 的更新。

为什么上下文大小对VRAM使用量很重要？

更大的上下文大小需要更多的显存。然而，使用 docker/model-runner 时，上下文大小固定为 4096，因此显存使用情况主要由模型大小、量化级别和 GPU 层数（MODEL_GPU_LAYERS）决定。

Docker 模型运行器：上下文大小配置指南

在 Docker Model Runner 中配置上下文大小的变通方法

在 Docker Model Runner 中配置上下文大小比它应该的要复杂得多。

虽然 context_size 参数存在于 docker-compose 配置中，但 docker/model-runner:latest-cuda 镜像通常会忽略它，该镜像硬编码了 4096 个 token 的上下文大小。本指南将探讨这些限制并提供实用的解决方法。

配置汽车此图像由 Flux 1 dev 生成。

理解问题

在使用 Docker Model Runner 与 docker-compose 时，您可能会这样配置上下文大小：

services:
  llm:
    image: docker/model-runner:latest-cuda
    models:
      - llm_model

models:
  llm_model:
    model: ai/gemma3-qat:4B
    context_size: 10240

然而，查看日志会显示实际使用的上下文大小：

docker compose logs 2>&1 | grep -i "n_ctx"

您将看到类似以下的输出：

llamaCppArgs: [... --ctx-size 4096 ...]
llama_context: n_ctx = 4096

docker/model-runner:latest-cuda 镜像在调用 llama.cpp 时 硬编码了 --ctx-size 4096，完全忽略了您指定的 context_size: 10240 配置。

为什么会这样

上下文大小 (n_ctx) 在 llama.cpp 中于模型初始化时设置，这是 Docker Model Runner 使用的底层推理引擎。这发生在模型的上下文构建阶段，任何 API 请求处理之前。Docker Model Runner 的 compose 集成似乎存在一个错误，即没有正确地将 context_size 参数从模型部分传递到底层的 llama.cpp 进程。相反，它默认使用 4096 个 token，无论您的配置如何。

这意味着，尽管 Docker Compose 识别了 YAML 配置中的 context_size 参数，docker/model-runner:latest-cuda 镜像在构建 llama.cpp 命令行参数时并不尊重它。硬编码的 --ctx-size 4096 标志优先于您指定的任何配置。

解决方法和解决方案

该怎么办？方法 1-2-3 都可以使用，但它们都有一定的限制。

方法 1. 临时使用，可以工作。方法 2. 在模型中硬编码。方法 3. 需要容器化并将您的应用程序放入组合中。这更接近生产环境。

方法 1：使用 `docker model configure`（有限）

您可以使用 Docker Model CLI 配置上下文大小，该配置存储在 Docker 的模型元数据中：

docker model configure --context-size=10000 ai/gemma3-qat:4B

此命令更新模型的配置，但实现有显著限制。配置虽然存储了，但并不总是正确应用。

限制：

在使用 docker model run 时此方法不起作用，只能通过 curl 调用 API 端点
配置后无法使用 docker model run，它会忽略配置
在使用 docker/model-runner:latest-cuda 镜像与 docker-compose 时，配置会被忽略
当模型更新或重新拉取时，配置可能会丢失

此方法最适合通过直接 API 调用进行测试，但不适合使用 docker-compose 的生产部署。

方法 2：打包您自己的模型

设置自定义上下文大小最可靠的方法是使用 docker model package 打包您自己的模型，这在打包时将上下文大小写入模型的元数据中：

docker model package \
  --gguf /path/to/model.gguf \
  --context-size 10240 \
  --name my-model:custom-context

这会创建一个新的 OCI 工件（类似于 Docker 镜像），上下文大小被永久配置。打包后的模型可以推送到 Docker Hub 或任何符合 OCI 标准的注册表，并像其他 Docker Model Runner 模型一样拉取。

然而，这种方法需要：

原始 GGUF 模型文件的访问权限（llama.cpp 使用的量化格式）
每次想要更改上下文大小时都需要重新打包，这可能很耗时
管理您自己的模型注册表或 Docker Hub 账户
对 Docker Model Runner 打包工作流程的理解

此方法最适合需要在部署中保持一致、可重复上下文大小的生产环境。

方法 3：Docker Compose

目前对于 docker/model-runner:latest-cuda 来说，此方法是损坏的

但如果您自己的应用程序在镜像中可能有效 :)

虽然 docker-compose.yml 中存在语法：

services:
  llm:
    image: docker/model-runner:latest-cuda
    models:
      - llm_model

models:
  llm_model:
    model: ai/gemma3-qat:4B
    context_size: 10240

这不起作用 - context_size 参数被 docker-compose 识别但未被应用。模型仍然使用 4096 个 token。

方法 4：环境变量（也损坏）

尝试使用 MODEL_CONTEXT 环境变量：

services:
  llm:
    image: docker/model-runner:latest-cuda
    environment:
      - MODEL_CONTEXT=10240

这也不起作用 - 使用 docker-compose 时环境变量未被尊重。

验证上下文大小

要检查实际使用的上下文大小，请查看日志：

# 检查 llama.cpp 参数
docker compose logs 2>&1 | grep "llamaCppArgs"

# 检查实际上下文大小
docker compose logs 2>&1 | grep -i "n_ctx" | tail -10

您将看到类似以下的输出：

llamaCppArgs: [-ngl 999 --metrics --model /models/... --ctx-size 4096 ...]
llama_context: n_ctx = 4096
llama_context: n_ctx_per_seq = 4096

如果您看到 n_ctx = 4096 尽管配置了不同的值，您的配置被忽略了。

测试上下文大小

要验证您的上下文大小配置是否实际被应用，您需要使用超出默认 4096 个 token 限制的提示进行测试。以下是一个使用 Python 的实用脚本，用于测试您的上下文大小配置是否正常工作：

#!/bin/bash
MODEL="ai/gemma3-qat:4B"
PORT=8085

# 测试大提示
python3 -c "print('test ' * 5000)" > large_prompt.txt

python3 << 'PYTHON' > request.json
import json
import os

with open('large_prompt.txt', 'r') as f:
    large_prompt = f.read().strip()

request = {
    "model": os.environ.get("MODEL", "ai/gemma3-qat:4B"),
    "messages": [{
        "role": "user",
        "content": large_prompt
    }]
}
print(json.dumps(request))
PYTHON

curl -s http://localhost:${PORT}/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d @request.json > response.json

# 检查 token 使用情况
python3 << 'PYTHON'
import json
with open('response.json') as f:
    r = json.load(f)
    if 'usage' in r:
        print(f"Prompt tokens: {r['usage']['prompt_tokens']}")
        if r['usage']['prompt_tokens'] > 4096:
            print("✅ 上下文窗口大于 4096！")
        else:
            print("⚠️ 上下文窗口似乎限制为 4096")
PYTHON

替代解决方案

如果您需要更灵活的上下文大小配置，请考虑以下替代方案：

Ollama - 一个替代的 LLM 托管解决方案，提供更好的上下文大小控制和更简单的配置。Ollama 允许您按模型指定上下文大小，并且没有相同的 docker-compose 限制。
Docker Model Runner 与 Ollama 对比 - 对两种解决方案的详细比较，包括上下文大小配置能力、性能以及何时选择每个平台。

结论

在使用 docker-compose 时，目前在 Docker Model Runner 中配置上下文大小存在问题。虽然 Docker Compose 规范中存在配置语法，但 docker/model-runner:latest-cuda 镜像并未正确实现，它会硬编码 4096 个 token 的上下文大小，无论您的配置如何。

最可靠的解决方法是使用 docker model package 打包您自己的模型，以您所需的上下文大小，尽管这会增加工作流程的复杂性，并需要访问原始 GGUF 模型文件。或者，您可以使用 docker model configure 进行直接 API 访问，但这不适用于 docker-compose 部署。

对于大多数用例，默认的 4096 个 token 上下文大小足以满足典型的对话式 AI 应用。如果您需要更大的上下文窗口或更灵活的配置，请考虑使用 Ollama 作为替代方案，它提供了更好的上下文大小控制，而没有 docker-compose 的限制。

您仍然可以通过其他方式优化 VRAM 使用，例如模型量化（Q4、Q6、Q8）和 GPU 层配置（MODEL_GPU_LAYERS），这些方法在减少内存消耗方面比上下文大小调整更有效。

有关 GPU 优化和 VRAM 管理的更多详细信息，请参阅我们的指南配置 NVIDIA GPU 支持。

Docker 模型运行器：上下文大小配置指南

理解问题

为什么会这样

解决方法和解决方案

方法 1：使用 `docker model configure`（有限）

方法 2：打包您自己的模型

方法 3：Docker Compose

方法 4：环境变量（也损坏）

验证上下文大小

测试上下文大小

替代解决方案

相关资源

Docker Model Runner

Docker 与基础设施

替代 LLM 解决方案

官方文档

结论

理解问题

为什么会这样

解决方法和解决方案

方法 1：使用 docker model configure（有限）

方法 2：打包您自己的模型

方法 3：Docker Compose

方法 4：环境变量（也损坏）

验证上下文大小

测试上下文大小

替代解决方案

相关资源

Docker Model Runner

Docker 与基础设施

替代 LLM 解决方案

官方文档

结论

方法 1：使用 `docker model configure`（有限）