Ollama 새 버전 - v0.12.1에서의 메모리 할당 모델 스케줄링

내가 직접 수행한 ollama 모델 스케줄링 테스트 ````

Page content

여기서 저는 새로운 버전의 Ollama가 모델에 할당하는 VRAM의 양을 이전 버전과 비교하고 있습니다.
새로운 버전은 더 나쁘다고 보입니다.

공식 웹사이트에 따르면 공식 웹사이트에 새 Ollama 릴리스는 새로운 모델 스케줄링 기능이 추가되었으며,

GPU 사용률 최대화:
Ollama의 새로운 메모리 관리 방식은 GPU에 더 많은 메모리를 할당하여
토큰 생성 및 처리 속도를 높입니다.

이와 함께 몇 가지 예시가 제공되었습니다. 예를 들어:

긴 컨텍스트

    GPU: 1x NVIDIA GeForce RTX 4090
    모델: gemma3:12b
    컨텍스트 길이: 128k

이전 버전                      새 버전
52.02 토큰/초 생성 속도       85.54 토큰/초 생성 속도
19.9GiB VRAM                  21.4GiB VRAM
48⁄49 레이어 GPU에 로드       49⁄49 레이어 GPU에 로드

여기서 저는 제 PC에서 어떻게 작동하는지 테스트하고 있습니다.
제가 얻은 결과는 공식 테스트와 매우 다르며, 오히려 정반대입니다.
제가 사용한 하드웨어 구성이 약간 다르고, 다른 모델을 테스트했지만, 결과는 전혀 개선되지 않았으며, 오히려 더 나빠졌습니다.
이것은 Ollama Enshittification의 첫 징후에 대한 포스트와도 일치합니다.

ollama llamas 이 이미지는 Ollama 웹사이트의 블로그 게시물에서 가져왔습니다.

TL;DR

제가 새로운 버전의
Ollama 가 제 16GB VRAM에 맞지 않는 LLM을 스케줄링하는 방식을 테스트했습니다.

  • mistral-small3.2:24b
  • qwen3:30b-a3b
  • gemma3:27b
  • qwen3:32b

ollama run <모델명>을 실행한 후, who are you?와 같은 간단한 질문을 했고, 별도의 터미널에서 ollama psnvidia-smi의 응답을 확인했습니다. 모두 매우 간단한 작업이었습니다.

qwen3:30b-a3b만 CPU/GPU 분산이 동일하게 나타났으며, 나머지 세 모델은 새 버전에서 더 많은 CPU 사용이 나타났습니다.
제 테스트 결과에 따르면, 실망스럽게도 Ollama의 새 버전은 더 나빠졌으며, 이 결과는 Ollama 블로그의 포스트와 모순됩니다.

상세 비교 데이터

모델 이전 버전: 할당된 VRAM 이전 버전: CPU/GPU 새 버전: 할당된 VRAM 새 버전: CPU/GPU
mistral-small3.2:24b 14489MiB 41%/59% 14249MiB 44%/56%
qwen3:30b-a3b 15065MiB 21%/79% 14867MiB 21%/79%
gemma3:27b 13771MiB 28%/72% 14817MiB 29%/71%
qwen3:32b 14676MiB 30%/70% 15139MiB 32%/68%

실망스럽습니다.

유용한 링크