16GB VRAM GPU에서 Ollama를 사용한 LLM 성능 비교
RTX 4080(16GB VRAM)에서의 LLM 속도 테스트
로컬에서 대규모 언어 모델을 실행하면 개인 정보 보호, 오프라인 기능, API 비용 0원 등의 이점을 얻을 수 있습니다. 이 벤치마크는 RTX 4080에서 Ollama를 사용한 14개의 인기 있는 LLM의 성능을 정확하게 보여줍니다.
16GB VRAM GPU를 사용했을 때 저는 꾸준히 선택의 고민에 빠졌습니다: 더 큰 모델로 잠재적으로 더 나은 품질을 얻거나, 더 작은 모델로 더 빠른 추론을 얻는 선택이었습니다. LLM 성능에 대한 더 많은 정보는 처리량 대 지연 시간, VRAM 제한, 병렬 요청, 그리고 런타임 간의 벤치마크에 대해 LLM 성능: 벤치마크, 병목 현상 및 최적화를 참조하세요.

TL;DR
RTX 4080 16GB에서 Ollama 0.17.7를 사용한 LLM 성능에 대한 업데이트된 비교 표입니다. (2026-03-09)에 Qwen 3.5 9b, 9bq8, 27b, 35b 모델이 추가되었습니다:
| 모델 | RAM+VRAM 사용량 | CPU/GPU 분할 | 토큰/초 |
|---|---|---|---|
| gpt-oss:20b | 14 GB | 100% GPU | 139.93 |
| qwen3.5:9b | 9.3 GB | 100% GPU | 90.89 |
| ministral-3:14b | 13 GB | 100% GPU | 70.13 |
| qwen3:14b | 12 GB | 100% GPU | 61.85 |
| qwen3.5:9b-q8_0 | 13 GB | 100% GPU | 61.22 |
| qwen3-coder:30b | 20 GB | 25%/75% CPU/GPU | 57.17 |
| qwen3-vl:30b-a3b | 22 GB | 30%/70% CPU/GPU | 50.99 |
| glm-4.7-flash | 21 GB | 27%/73% CPU/GPU | 33.86 |
| nemotron-3-nano:30b | 25 GB | 38%/62% CPU/GPU | 32.77 |
| qwen3.5:35b | 27 GB | 43%/57% CPU/GPU | 20.66 |
| devstral-small-2:24b | 19 GB | 18%/82% CPU/GPU | 18.67 |
| mistral-small3.2:24b | 19 GB | 18%/82% CPU/GPU | 18.51 |
| gpt-oss:120b | 66 GB | 78%/22% CPU/GPU | 12.64 |
| qwen3.5:27b | 24 GB | 43%/57% CPU/GPU | 6.48 |
핵심 통찰: VRAM에 완전히 적합한 모델은 훨씬 더 빠릅니다. GPT-OSS 20B는 139.93 토큰/초를 달성하지만, GPT-OSS 120B는 중앙 처리 장치(CPU)를 중단시키는 것처럼 12.64 토큰/초로 진행되며, 이는 11배의 속도 차이입니다.
테스트 하드웨어 설정
이 벤치마크는 다음과 같은 시스템에서 수행되었습니다:
- GPU: NVIDIA RTX 4080, 16GB VRAM
- CPU: Intel Core i7-14700 (8개의 P-코어 + 12개의 E-코어)
- RAM: 64GB DDR5-6000
이것은 로컬 LLM 추론을 위한 일반적인 고사양 소비자 구성입니다. 16GB VRAM은 모델이 GPU에서 전체적으로 실행되는지, CPU 중단이 필요한지 결정하는 중요한 제약 조건입니다.
모델이 VRAM 용량을 초과할 때, CPU 성능이 중단된 계층 추론 속도에 직접적인 영향을 미치므로, Ollama가 인텔 CPU 코어를 어떻게 사용하는지를 이해하는 것이 중요합니다.
이 벤치마크의 목적
주요 목표는 현실적인 조건에서 추론 속도를 측정하는 것이었습니다. 저는 이미 경험상 Mistral Small 3.2 24B가 언어 품질에서 뛰어나고 Qwen3 14B가 제 특정 사용 사례에서 더 우수한 지시를 따르는 것을 알고 있었습니다.
이 벤치마크는 실용적인 질문에 답합니다: 각 모델이 텍스트를 얼마나 빠르게 생성할 수 있으며, VRAM 한계를 초과할 때 속도 페널티는 무엇인가요?
테스트 파라미터는 다음과 같습니다:
- 컨텍스트 크기: 19,000 토큰. 이는 제 요청에서 평균 값입니다.
- 프롬프트: “호주 수도 도시 간 날씨와 기후 비교”
- 지표: 평가 속도 (생성 중 토큰/초)
Ollama 설치 및 버전
모든 테스트는 Ollama 버전 0.15.2를 사용했습니다. 테스트 시점의 최신 릴리스입니다. 이후 Ollama v 0.17.7에서 테스트를 다시 수행하여 Qwen3.5 모델을 추가했습니다. 이 벤치마크에서 사용된 Ollama 명령어에 대한 완전한 참조는 Ollama 빠른 참고서를 참조하세요.
빠르게 설치하려면 Linux에 Ollama를 설치하십시오:
curl -fsSL https://ollama.com/install.sh | sh
설치 확인:
ollama --version
공간 제약으로 인해 모델을 다른 드라이브에 저장해야 하는 경우, Ollama 모델을 다른 드라이브로 이동하는 방법을 참조하세요.
테스트된 모델
다음 모델들이 알파벳 순으로 벤치마크되었습니다:
| 모델 | 파라미터 | 양자화 | 참고 |
|---|---|---|---|
| devstral-small-2:24b | 24B | Q4_K_M | 코드 중심 |
| glm-4.7-flash | 30B | Q4_K_M | 사고 모델 |
| gpt-oss:20b | 20B | Q4_K_M | 가장 빠른 전체 |
| gpt-oss:120b | 120B | Q4_K_M | 가장 큰 테스트 |
| ministral-3:14b | 14B | Q4_K_M | Mistral의 효율적인 모델 |
| mistral-small3.2:24b | 24B | Q4_K_M | 강력한 언어 품질 |
| nemotron-3-nano:30b | 30B | Q4_K_M | NVIDIA의 제공 |
| qwen3:14b | 14B | Q4_K_M | 가장 우수한 지시 준수 |
| qwen3.5:9b | 9B | Q4_K_M | 빠르고, 완전히 GPU |
| qwen3.5:9b-q8_0 | 9B | Q8_0 | 더 높은 품질, 완전히 GPU |
| qwen3.5:27b | 27B | Q4_K_M | 우수한 품질, Ollama에서 느림 |
| qwen3-vl:30b-a3b | 30B | Q4_K_M | 시각 기능이 있는 모델 |
| qwen3-coder:30b | 30B | Q4_K_M | 코드 중심 |
| qwen3.5:35b | 35B | Q4_K_M | 우수한 코드 기능 |
모델을 다운로드하려면:
ollama pull gpt-oss:20b
ollama pull qwen3:14b
CPU 중단 이해
모델의 메모리 요구사항이 사용 가능한 VRAM을 초과할 경우 Ollama는 자동으로 모델 레이어를 GPU와 시스템 RAM 사이에 분배합니다. 결과는 “18%/82% CPU/GPU"와 같은 비율 분할로 표시됩니다.
이것은 성능에 막대한 영향을 미칩니다. 각 토큰 생성은 CPU와 GPU 메모리 간의 데이터 전송이 필요하며, 이는 중단된 레이어가 많을수록 병목 현상이 발생합니다.
우리의 결과에서 패턴이 명확합니다:
- 100% GPU 모델: 61-140 토큰/초
- 70-82% GPU 모델: 19-51 토큰/초
- 22% GPU (대부분 CPU): 12.6 토큰/초
이것이 왜 20B 파라미터 모델이 실제로 120B 모델보다 11배 빠를 수 있는지 설명합니다. 여러 동시 요청을 제공할 계획이라면, Ollama가 병렬 요청을 어떻게 처리하는지를 이해하는 것이 용량 계획에 필수적입니다.
상세 벤치마크 결과
100% GPU에서 실행되는 모델
GPT-OSS 20B — 속도 챔피언
ollama run gpt-oss:20b --verbose
/set parameter num_ctx 19000
NAME SIZE PROCESSOR CONTEXT
gpt-oss:20b 14 GB 100% GPU 19000
eval count: 2856 token(s)
eval duration: 20.410517947s
eval rate: 139.93 tokens/s
139.93 토큰/초의 속도로, GPT-OSS 20B는 속도가 중요한 애플리케이션에서 분명한 우승자입니다. 오직 14GB의 VRAM만 사용하며, 더 큰 컨텍스트 창 또는 다른 GPU 작업 부하에 대한 여유 공간을 남깁니다.
Qwen3 14B — 훌륭한 균형
ollama run qwen3:14b --verbose
/set parameter num_ctx 19000
NAME SIZE PROCESSOR CONTEXT
qwen3:14b 12 GB 100% GPU 19000
eval count: 3094 token(s)
eval duration: 50.020594575s
eval rate: 61.85 tokens/s
Qwen3 14B는 제 경험에서 가장 우수한 지시 준수를 제공하며, 12GB의 메모리 사용량을 가집니다. 61.85 토큰/초의 속도로, 대화형 사용에 충분히 빠릅니다.
Qwen3을 애플리케이션에 통합하는 개발자에게는 Ollama와 Qwen3를 사용한 LLM 구조화된 출력를 참조하여 구조화된 JSON 응답을 추출하세요.
Ministral 3 14B — 빠르고 간결한
ollama run ministral-3:14b --verbose
/set parameter num_ctx 19000
NAME SIZE PROCESSOR CONTEXT
ministral-3:14b 13 GB 100% GPU 19000
eval count: 1481 token(s)
eval duration: 21.11734277s
eval rate: 70.13 tokens/s
Mistral의 작은 모델은 70.13 토큰/초의 속도로 VRAM에 완전히 적합합니다. 최대 속도에서 Mistral 가족의 품질을 필요로 할 때의 우수한 선택입니다.
qwen3.5:9b - 빠르고 새로운
ollama run qwen3.5:9b --verbose
/set parameter num_ctx 19000
compare weather and climate between capital cities of australia
NAME ID SIZE PROCESSOR CONTEXT
qwen3.5:9b 6488c96fa5fa 9.3 GB 100% GPU 19000
eval count: 3802 token(s)
eval duration: 41.830174597s
eval rate: 90.89 tokens/s
qwen3.5:9b-q8_0 - q8 양자화
이 양자화는 q4에 비해 qwen3.5:9b 성능을 30% 감소시킵니다.
ollama run qwen3.5:9b-q8_0 --verbose
/set parameter num_ctx 19000
compare weather and climate between capital cities of australia
NAME ID SIZE PROCESSOR CONTEXT
qwen3.5:9b-q8_0 441ec31e4d2a 13 GB 100% GPU 19000
eval count: 3526 token(s)
eval duration: 57.595540159s
eval rate: 61.22 tokens/s
CPU 중단이 필요한 모델
qwen3-coder:30b - 30B LLM 집합 중에서 텍스트 전용으로 인해 가장 빠름
ollama run qwen3-coder:30b --verbose
/set parameter num_ctx 19000
compare weather and climate between capital cities of australia
NAME ID SIZE PROCESSOR CONTEXT
qwen3-coder:30b 06c1097efce0 20 GB 25%/75% CPU/GPU 19000
22%/605%
eval count: 559 token(s)
eval duration: 9.77768875s
eval rate: 57.17 tokens/s
Qwen3-VL 30B — 부분 중단이 필요한 최고 성능
ollama run qwen3-vl:30b-a3b-instruct --verbose
/set parameter num_ctx 19000
NAME SIZE PROCESSOR CONTEXT
qwen3-vl:30b-a3b-instruct 22 GB 30%/70% CPU/GPU 19000
eval count: 1450 token(s)
eval duration: 28.439319709s
eval rate: 50.99 tokens/s
30%의 레이어가 CPU에 있을지라도, Qwen3-VL은 50.99 토큰/초를 유지합니다. 시각 기능은 다중 모드 작업에 유연성을 더합니다.
Mistral Small 3.2 24B — 품질 대 속도의 트레이드오프
ollama run mistral-small3.2:24b --verbose
/set parameter num_ctx 19000
NAME SIZE PROCESSOR CONTEXT
mistral-small3.2:24b 19 GB 18%/82% CPU/GPU 19000
eval count: 831 token(s)
eval duration: 44.899859038s
eval rate: 18.51 tokens/s
Mistral Small 3.2는 품질에서 우수하지만 속도에 대한 심각한 페널티를 지불합니다. 18.51 토큰/초의 속도로, 대화형 채팅에 느리게 느껴집니다. 품질이 지연 시간보다 더 중요한 작업에는 가치가 있습니다.
GLM 4.7 Flash — MoE 사고 모델
ollama run glm-4.7-flash --verbose
/set parameter num_ctx 19000
NAME SIZE PROCESSOR CONTEXT
glm-4.7-flash 21 GB 27%/73% CPU/GPU 19000
eval count: 2446 token(s)
eval duration: 1m12.239164004s
eval rate: 33.86 tokens/s
GLM 4.7 Flash는 30B-A3B Mixture of Experts 모델로, 총 30B 파라미터 중 토큰당 3B만 활성화됩니다. “사고” 모델로서, 응답 전에 내부 추론을 생성합니다. 33.86 토큰/초는 사고와 출력 토큰 모두를 포함합니다. CPU 중단에도 불구하고, MoE 아키텍처는 합리적인 속도를 유지합니다.
qwen3.5:35b - 자체 호스팅 성능이 괜찮은 새로운 모델
ollama run qwen3.5:35b --verbose
/set parameter num_ctx 19000
compare weather and climate between capital cities of australia
NAME ID SIZE PROCESSOR CONTEXT
qwen3.5:35b 4af949f8bdf0 27 GB 43%/57% CPU/GPU 19000
eval count: 3418 token(s)
eval duration: 2m45.458926548s
eval rate: 20.66 tokens/s
GPT-OSS 120B — 무거운 히터
ollama run gpt-oss:120b --verbose
/set parameter num_ctx 19000
NAME SIZE PROCESSOR CONTEXT
gpt-oss:120b 66 GB 78%/22% CPU/GPU 19000
eval count: 5008 token(s)
eval duration: 6m36.168233066s
eval rate: 12.64 tokens/s
16GB VRAM에서 120B 모델을 실행하는 것은 기술적으로 가능하지만 고통스럽습니다. 78%가 CPU에 있을 경우, 12.64 토큰/초는 대화형 사용에 짜증을 줍니다. 배치 처리에 더 적합합니다.
qwen3.5:27b - Ollama에서 느리지만 똑똑한 모델
ollama run qwen3.5:27b --verbose
/set parameter num_ctx 19000
compare weather and climate between capital cities of australia
NAME ID SIZE PROCESSOR CONTEXT
qwen3.5:27b 193ec05b1e80 24 GB 43%/57% CPU/GPU 19000
eval count: 3370 token(s)
eval duration: 8m40.087510281s
eval rate: 6.48 tokens/s
qwen3.5:27b를 테스트해 보았고, 이 모델의 성능에 대해 매우 긍정적인 의견을 얻었습니다. OpenCode를 사용했을 때 매우 능력 있고, 지식이 풍부하며, 훌륭한 도구 호출이 가능합니다. 그러나 Ollama에서 사용할 때는 느립니다. 다른 LLM 자체 호스팅 플랫폼을 사용했을 때 더 빠른 속도를 얻었습니다. Ollama을 사용하는 것을 그만둘 때가 되었을 것 같습니다. 나중에 이것에 대해 조금 더 쓸 예정입니다.
실용적인 추천
대화형 채팅을 위한 경우
VRAM에 100% 적합한 모델을 사용하십시오:
- GPT-OSS 20B — 최대 속도 (139.93 t/s)
- Ministral 3 14B — Mistral 품질과 좋은 속도 (70.13 t/s)
- Qwen3 14B — 최고의 지시 준수 (61.85 t/s)
더 나은 채팅 경험을 위해 로컬 Ollama에 대한 오픈소스 채팅 UI를 고려하세요.
배치 처리를 위한 경우
다시 한 번, 제 장비는 14GB VRAM입니다.
속도가 덜 중요할 경우:
- Mistral Small 3.2 24B — 우수한 언어 품질
- Qwen3-VL 30B — 시각 + 텍스트 기능
속도가 전혀 중요하지 않을 경우:
- Qwen3.5:35b - 우수한 코딩 기능
- Qwen3.5:27b - 매우 우수하지만 Ollama에서 느림. 저는 llama.cpp에서 이 모델을 호스팅하는 데 성공했습니다.
개발 및 코딩을 위한 경우
Ollama를 사용하여 애플리케이션을 개발하는 경우:
대안 호스팅 옵션
Ollama의 한계가 걱정된다면 (Ollama의 악화 가능성), 로컬 LLM 호스팅 가이드 또는 Docker 모델 러너 대 Ollama 비교에서 다른 옵션을 탐색하세요.
결론
16GB VRAM을 사용하면, 올바르게 선택하면 인상적인 속도로 능력 있는 LLM을 실행할 수 있습니다. 주요 발견 사항은 다음과 같습니다:
-
대화형 사용을 위해 VRAM 한계 내부에 머무르세요. 140 토큰/초의 20B 모델은 대부분의 실용적인 목적에서 12 토큰/초의 120B 모델보다 우수합니다.
-
GPT-OSS 20B는 순수 속도에서 우승하지만, Qwen3 14B는 지시 준수 작업에 속도와 능력의 가장 좋은 균형을 제공합니다.
-
CPU 중단은 작동합니다. 하지만 3-10배의 속도 저하를 기대하세요. 배치 처리에는 허용 가능하지만, 대화에는 짜증이 나옵니다.
-
컨텍스트 크기는 중요합니다. 여기서 사용된 19K 컨텍스트는 VRAM 사용량을 크게 증가시킵니다. 더 나은 GPU 활용을 위해 컨텍스트를 줄이세요.
AI 기반 검색에서 로컬 LLM과 웹 결과를 결합하려면 Ollama와 함께 Perplexica를 자체 호스팅를 참조하세요.
Ollama와 다른 런타임에서 벤치마크, VRAM 및 처리량의 트레이드오프, 성능 최적화를 탐색하려면 LLM 성능: 벤치마크, 병목 현상 및 최적화 허브를 참조하세요.
유용한 링크
내부 자원
- Ollama 빠른 참고서: 가장 유용한 Ollama 명령어
- Ollama가 병렬 요청을 어떻게 처리하는지
- Ollama가 인텔 CPU 성능 및 효율 코어를 어떻게 사용하는지
- 로컬 LLM 호스팅: 2026년 완전 가이드 - Ollama, vLLM, LocalAI, Jan, LM Studio 및 기타