Ollama 새 버전 - v0.12.1에서의 메모리 할당 모델 스케줄링
내가 직접 수행한 ollama 모델 스케줄링 테스트 ````
여기서 저는 새로운 버전의 Ollama가 모델에 할당하는 VRAM의 양을 이전 버전과 비교하고 있습니다.
새로운 버전은 더 나쁘다고 보입니다.
공식 웹사이트에 따르면 공식 웹사이트에 새 Ollama 릴리스는 새로운 모델 스케줄링
기능이 추가되었으며,
GPU 사용률 최대화:
Ollama의 새로운 메모리 관리 방식은 GPU에 더 많은 메모리를 할당하여
토큰 생성 및 처리 속도를 높입니다.
이와 함께 몇 가지 예시가 제공되었습니다. 예를 들어:
긴 컨텍스트
GPU: 1x NVIDIA GeForce RTX 4090
모델: gemma3:12b
컨텍스트 길이: 128k
이전 버전 새 버전
52.02 토큰/초 생성 속도 85.54 토큰/초 생성 속도
19.9GiB VRAM 21.4GiB VRAM
48⁄49 레이어 GPU에 로드 49⁄49 레이어 GPU에 로드
여기서 저는 제 PC에서 어떻게 작동하는지 테스트하고 있습니다.
제가 얻은 결과는 공식 테스트와 매우 다르며, 오히려 정반대입니다.
제가 사용한 하드웨어 구성이 약간 다르고, 다른 모델을 테스트했지만, 결과는 전혀 개선되지 않았으며, 오히려 더 나빠졌습니다.
이것은 Ollama Enshittification의 첫 징후에 대한 포스트와도 일치합니다.
이 이미지는 Ollama 웹사이트의 블로그 게시물에서 가져왔습니다.
TL;DR
제가 새로운 버전의
Ollama
가 제 16GB VRAM에 맞지 않는 LLM을 스케줄링하는 방식을 테스트했습니다.
- mistral-small3.2:24b
- qwen3:30b-a3b
- gemma3:27b
- qwen3:32b
ollama run <모델명>
을 실행한 후, who are you?
와 같은 간단한 질문을 했고, 별도의 터미널에서 ollama ps
와 nvidia-smi
의 응답을 확인했습니다. 모두 매우 간단한 작업이었습니다.
qwen3:30b-a3b만 CPU/GPU 분산이 동일하게 나타났으며, 나머지 세 모델은 새 버전에서 더 많은 CPU 사용이 나타났습니다.
제 테스트 결과에 따르면, 실망스럽게도 Ollama의 새 버전은 더 나빠졌으며, 이 결과는 Ollama 블로그의 포스트와 모순됩니다.
상세 비교 데이터
모델 | 이전 버전: 할당된 VRAM | 이전 버전: CPU/GPU | 새 버전: 할당된 VRAM | 새 버전: CPU/GPU |
---|---|---|---|---|
mistral-small3.2:24b | 14489MiB | 41%/59% | 14249MiB | 44%/56% |
qwen3:30b-a3b | 15065MiB | 21%/79% | 14867MiB | 21%/79% |
gemma3:27b | 13771MiB | 28%/72% | 14817MiB | 29%/71% |
qwen3:32b | 14676MiB | 30%/70% | 15139MiB | 32%/68% |
실망스럽습니다.