16GB VRAM GPU에서 Ollama를 통한 LLM 성능 비교
16GB VRAM을 탑재한 RTX 4080에서 LLM 속도 테스트
로컬에서 대규모 언어 모델(LLM)을 실행하면 프라이버시 보호, 오프라인 사용 가능, 그리고 API 비용 제로라는 장점을 제공합니다. 이 벤치마크는 14가지 인기 있는 RTX 4080에서의 Ollama LLM들에서 기대할 수 있는 성능을 명확하게 보여줍니다.
16GB VRAM을 갖춘 GPU를 사용하면서 저는 끊임 없는 트레이드오프에 직면했습니다. 잠재적으로 더 나은 품질을 제공할 수 있는 더 큰 모델, 아니면 추론 속도가 더 빠른 더 작은 모델 사이에서 선택해야 했습니다. LLM 성능에 대한 더 많은 정보(처리량 대 지연 시간, VRAM 한계, 병렬 요청, 그리고 다양한 런타임 간의 벤치마크)는 LLM 성능: 벤치마크, 병목 현상 및 최적화를 참조하세요.
이 글은 Ollama에 초점을 맞추고 있습니다. 19K, 32K, 64K 컨텍스트(VRAM, GPU 부하, dense 및 MoE 체크포인트 간의 토큰/초)에서 llama.cpp로 측정한 동일한 16GB 클래스 GPU의 경우, 16GB VRAM LLM 벤치마크 with llama.cpp (속도 및 컨텍스트)를 참조하세요.
처리량과 VRAM 분할이 수용 가능한 수준으로 보일 때, 에이전트 스타일의 워크로드에는 여전히 Qwen 및 Gemma 스타일 스택에 대한 적절한 온도 및 패널티 프리셋이 필요합니다. 관련 내용은 Qwen 및 Gemma용 에이전틱 추론 파라미터를 참조하세요.

TL;DR
다음은 RTX 4080 16GB에서 Ollama 0.17.7을 사용한 LLM 성능의 업데이트된 비교 표입니다. (2026-03-09) Qwen 3.5 9b, 9bq8, 27b 및 35b 모델이 추가되었습니다:
| 모델 | 사용된 RAM+VRAM | CPU/GPU 분할 | 토큰/초 |
|---|---|---|---|
| gpt-oss:20b | 14 GB | 100% GPU | 139.93 |
| qwen3.5:9b | 9.3 GB | 100% GPU | 90.89 |
| ministral-3:14b | 13 GB | 100% GPU | 70.13 |
| qwen3:14b | 12 GB | 100% GPU | 61.85 |
| qwen3.5:9b-q8_0 | 13 GB | 100% GPU | 61.22 |
| qwen3-coder:30b | 20 GB | 25%/75% CPU/GPU | 57.17 |
| qwen3-vl:30b-a3b | 22 GB | 30%/70% CPU/GPU | 50.99 |
| glm-4.7-flash | 21 GB | 27%/73% CPU/GPU | 33.86 |
| nemotron-3-nano:30b | 25 GB | 38%/62% CPU/GPU | 32.77 |
| qwen3.5:35b | 27 GB | 43%/57% CPU/GPU | 20.66 |
| devstral-small-2:24b | 19 GB | 18%/82% CPU/GPU | 18.67 |
| mistral-small3.2:24b | 19 GB | 18%/82% CPU/GPU | 18.51 |
| gpt-oss:120b | 66 GB | 78%/22% CPU/GPU | 12.64 |
| qwen3.5:27b | 24 GB | 43%/57% CPU/GPU | 6.48 |
주요 통찰: VRAM에 완전히 들어맞는 모델이 훨씬 더 빠릅니다. GPT-OSS 20B는 139.93 토큰/초를 달성하는 반면, 무거운 CPU 오프로딩을 사용하는 GPT-OSS 120B는 12.64 토큰/초로 느리게 동작하며, 이는 11배의 속도 차이입니다.
테스트 하드웨어 구성
다음 시스템에서 벤치마크가 수행되었습니다:
- GPU: 16GB VRAM을 갖춘 NVIDIA RTX 4080
- CPU: Intel Core i7-14700 (8 P-코어 + 12 E-코어)
- RAM: 64GB DDR5-6000
이는 로컬 LLM 추론을 위한 일반적인 하이엔드 소비자 구성을 나타냅니다. 16GB VRAM은 중요한 제약 조건입니다. 이는 어떤 모델이 GPU에서만 완전히 실행되고, 어떤 모델이 CPU 오프로딩이 필요한지를 결정합니다.
모델이 VRAM 용량을 초과할 때 Ollama가 Intel CPU 코어를 사용하는 방법을 이해하는 것이 중요해집니다. 이는 CPU 성능이 오프로딩된 레이어 추론 속도에 직접적인 영향을 미치기 때문입니다.
이 벤치마크의 목적
주요 목표는 현실적인 조건 하에서 추론 속도를 측정하는 것이었습니다. 저는 이미 경험상 Mistral Small 3.2 24B가 언어 품질에서 우수하며, Qwen3 14B가 저의 특정 사용 사례에서 우수한 지시 따르기 능력을 제공한다는 것을 알고 있었습니다.
이 벤치마크는 실용적인 질문에 답합니다: 각 모델이 텍스트를 얼마나 빠르게 생성할 수 있으며, VRAM 한계를 초과할 때의 속도 페널티는 무엇인가?
테스트 파라미터는 다음과 같습니다:
- 컨텍스트 크기: 19,000 토큰. 이는 제 Generate 요청에서의 평균 값입니다.
- 프롬프트: “compare weather and climate between capital cities of australia” (호주 주 도시 간의 날씨와 기후 비교)
- 지표: 평가 속도(생성 중 초당 토큰 수)
Ollama 설치 및 버전
모든 테스트는 테스트 당시 최신 릴리스인 Ollama 버전 0.15.2를 사용했습니다. 나중에 Qwen3.5 모델을 추가하기 위해 Ollama v 0.17.7에서 다시 실행했습니다. 이 벤치마크에서 사용된 Ollama 명령의 전체 참조는 Ollama 치트시트를 참조하세요.
간단히 요약하면, Linux에서 Ollama를 설치하려면:
curl -fsSL https://ollama.com/install.sh | sh
설치를 확인하려면:
ollama --version
공간 제약으로 인해 다른 드라이브에 모델을 저장해야 하는 경우, Ollama 모델을 다른 드라이브로 이동하는 방법을 확인하세요.
테스트된 모델
다음 모델이 알파벳 순서로 벤치마크되었습니다:
| 모델 | 파라미터 | 양자화 | 비고 |
|---|---|---|---|
| devstral-small-2:24b | 24B | Q4_K_M | 코드 중심 |
| glm-4.7-flash | 30B | Q4_K_M | 사고 모델 |
| gpt-oss:20b | 20B | Q4_K_M | 전체적으로 가장 빠름 |
| gpt-oss:120b | 120B | Q4_K_M | 테스트된 것 중 가장 큼 |
| ministral-3:14b | 14B | Q4_K_M | Mistral의 효율적인 모델 |
| mistral-small3.2:24b | 24B | Q4_K_M | 강력한 언어 품질 |
| nemotron-3-nano:30b | 30B | Q4_K_M | NVIDIA의 제공 모델 |
| qwen3:14b | 14B | Q4_K_M | 최고의 지시 따르기 |
| qwen3.5:9b | 9B | Q4_K_M | 빠름, 완전 GPU |
| qwen3.5:9b-q8_0 | 9B | Q8_0 | 더 높은 품질, 완전 GPU |
| qwen3.5:27b | 27B | Q4_K_M | 우수한 품질, Ollama에서 느림 |
| qwen3-vl:30b-a3b | 30B | Q4_K_M | 비전 기능 지원 |
| qwen3-coder:30b | 30B | Q4_K_M | 코드 중심 |
| qwen3.5:35b | 35B | Q4_K_M | 우수한 코딩 기능 |
모든 모델을 다운로드하려면:
ollama pull gpt-oss:20b
ollama pull qwen3:14b
CPU 오프로딩 이해하기
모델의 메모리 요구 사항이 사용 가능한 VRAM을 초과할 때, Ollama는 자동으로 모델 레이어를 GPU와 시스템 RAM 사이에 분배합니다. 출력은 이를 “18%/82% CPU/GPU"와 같은 퍼센트 분할로 표시합니다.
이는 성능에 막대한 영향을 미칩니다. 각 토큰 생성은 CPU와 GPU 메모리 간의 데이터 전송을 필요로 하며, 이는 CPU로 오프로딩된 각 레이어마다 누적되는 병목 현상입니다.
결과에서 패턴은 명확합니다:
- 100% GPU 모델: 61-140 토큰/초
- 70-82% GPU 모델: 19-51 토큰/초
- 22% GPU (대부분 CPU): 12.6 토큰/초
이것이 20B 파라미터 모델이 실제로 120B 모델보다 11배 더 빠를 수 있는 이유를 설명합니다. 여러 동시 요청을 서비스할 계획이라면, Ollama가 병렬 요청을 처리하는 방법을 이해하는 것이 용량 계획에 필수적입니다.
상세 벤치마크 결과
GPU에서 100% 실행되는 모델
GPT-OSS 20B — 속도의 챔피언
ollama run gpt-oss:20b --verbose
/set parameter num_ctx 19000
NAME SIZE PROCESSOR CONTEXT
gpt-oss:20b 14 GB 100% GPU 19000
eval count: 2856 token(s)
eval duration: 20.410517947s
eval rate: 139.93 tokens/s
139.93 토큰/초로, GPT-OSS 20B는 속도가 중요한 애플리케이션에서 명확한 승자입니다. 이는 VRAM의 14GB만 사용하여 더 큰 컨텍스트 창이나 다른 GPU 워크로드를 위한 여력을 남깁니다.
Qwen3 14B — 훌륭한 균형
ollama run qwen3:14b --verbose
/set parameter num_ctx 19000
NAME SIZE PROCESSOR CONTEXT
qwen3:14b 12 GB 100% GPU 19000
eval count: 3094 token(s)
eval duration: 50.020594575s
eval rate: 61.85 tokens/s
Qwen3 14B는 제 경험상 최고의 지시 따르기를 제공하며, 12GB라는 편안한 메모리_footprint를 갖추고 있습니다. 61.85 토큰/초로, 대화형 사용에 충분히 반응이 빠릅니다.
Qwen3를 애플리케이션에 통합하는 개발자들을 위해, 구조화된 JSON 응답을 추출하는 방법은 Ollama 및 Qwen3를 사용한 LLM 구조화된 출력을 참조하세요.
Ministral 3 14B — 빠르고 컴팩트
ollama run ministral-3:14b --verbose
/set parameter num_ctx 19000
NAME SIZE PROCESSOR CONTEXT
ministral-3:14b 13 GB 100% GPU 19000
eval count: 1481 token(s)
eval duration: 21.11734277s
eval rate: 70.13 tokens/s
Mistral의 더 작은 모델은 VRAM에 완전히 들어맞으면서 70.13 토큰/초를 제공합니다. 최대 속도로 Mistral 계열의 품질이 필요할 때 견고한 선택입니다.
qwen3.5:9b - 빠르고 새로운 모델
ollama run qwen3.5:9b --verbose
/set parameter num_ctx 19000
compare weather and climate between capital cities of australia
NAME ID SIZE PROCESSOR CONTEXT
qwen3.5:9b 6488c96fa5fa 9.3 GB 100% GPU 19000
eval count: 3802 token(s)
eval duration: 41.830174597s
eval rate: 90.89 tokens/s
qwen3.5:9b-q8_0 - q8 양자화
이 양자화는 q4와 비교하여 qwen3.5:9b 성능을 30% 떨어뜨립니다.
ollama run qwen3.5:9b-q8_0 --verbose
/set parameter num_ctx 19000
compare weather and climate between capital cities of australia
NAME ID SIZE PROCESSOR CONTEXT
qwen3.5:9b-q8_0 441ec31e4d2a 13 GB 100% GPU 19000
eval count: 3526 token(s)
eval duration: 57.595540159s
eval rate: 61.22 tokens/s
CPU 오프로딩이 필요한 모델
qwen3-coder:30b - 텍스트 전용이기 때문에 30b LLM 세트 중 가장 빠름
ollama run qwen3-coder:30b --verbose
/set parameter num_ctx 19000
compare weather and climate between capital cities of australia
NAME ID SIZE PROCESSOR CONTEXT
qwen3-coder:30b 06c1097efce0 20 GB 25%/75% CPU/GPU 19000
22%/605%
eval count: 559 token(s)
eval duration: 9.77768875s
eval rate: 57.17 tokens/s
Qwen3-VL 30B — 최고의 부분적 오프로딩 성능
ollama run qwen3-vl:30b-a3b-instruct --verbose
/set parameter num_ctx 19000
NAME SIZE PROCESSOR CONTEXT
qwen3-vl:30b-a3b-instruct 22 GB 30%/70% CPU/GPU 19000
eval count: 1450 token(s)
eval duration: 28.439319709s
eval rate: 50.99 tokens/s
30%의 레이어가 CPU에 있음에도 불구하고, Qwen3-VL은 50.99 토큰/초를 유지합니다. 이는 일부 100% GPU 모델보다 빠릅니다. 비전 기능은 다중 모드 작업에 다양성을 추가합니다.
Mistral Small 3.2 24B — 품질 대 속도의 트레이드오프
ollama run mistral-small3.2:24b --verbose
/set parameter num_ctx 19000
NAME SIZE PROCESSOR CONTEXT
mistral-small3.2:24b 19 GB 18%/82% CPU/GPU 19000
eval count: 831 token(s)
eval duration: 44.899859038s
eval rate: 18.51 tokens/s
Mistral Small 3.2는 우수한 언어 품질을 제공하지만, 가파른 속도 페널티를 치릅니다. 18.51 토큰/초로, 대화형 채팅에는 눈에 띄게 느리게 느껴집니다. 지연 시간보다 품질이 더 중요한 작업에는 가치가 있습니다.
GLM 4.7 Flash — MoE 사고 모델
ollama run glm-4.7-flash --verbose
/set parameter num_ctx 19000
NAME SIZE PROCESSOR CONTEXT
glm-4.7-flash 21 GB 27%/73% CPU/GPU 19000
eval count: 2446 token(s)
eval duration: 1m12.239164004s
eval rate: 33.86 tokens/s
GLM 4.7 Flash는 30B-A3B 혼합 전문가(Mixture of Experts) 모델입니다. 총 30B 파라미터 중 토큰당 3B만 활성화됩니다. “사고” 모델로서, 응답 전에 내부 추론을 생성합니다. 33.86 토큰/초는 사고 토큰과 출력 토큰을 모두 포함합니다. CPU 오프로딩에도 불구하고, MoE 아키텍처는 이를 합리적으로 빠르게 유지합니다.
qwen3.5:35b - 자체 호스팅 성능이 준수한 새로운 모델
ollama run qwen3.5:35b --verbose
/set parameter num_ctx 19000
compare weather and climate between capital cities of australia
NAME ID SIZE PROCESSOR CONTEXT
qwen3.5:35b 4af949f8bdf0 27 GB 43%/57% CPU/GPU 19000
eval count: 3418 token(s)
eval duration: 2m45.458926548s
eval rate: 20.66 tokens/s
GPT-OSS 120B — 대형 모델
ollama run gpt-oss:120b --verbose
/set parameter num_ctx 19000
NAME SIZE PROCESSOR CONTEXT
gpt-oss:120b 66 GB 78%/22% CPU/GPU 19000
eval count: 5008 token(s)
eval duration: 6m36.168233066s
eval rate: 12.64 tokens/s
16GB VRAM에서 120B 모델을 실행하는 것은 기술적으로 가능하지만 고통스럽습니다. 78%가 CPU에 배치되어 12.64 토큰/초가 나오므로, 대화형 사용은 좌절감을 줍니다. 지연 시간이 중요하지 않은 배치 처리에 더 적합합니다.
qwen3.5:27b - 똑똑하지만 Ollama에서는 느림
ollama run qwen3.5:27b --verbose
/set parameter num_ctx 19000
compare weather and climate between capital cities of australia
NAME ID SIZE PROCESSOR CONTEXT
qwen3.5:27b 193ec05b1e80 24 GB 43%/57% CPU/GPU 19000
eval count: 3370 token(s)
eval duration: 8m40.087510281s
eval rate: 6.48 tokens/s
저는 qwen3.5:27b를 테스트했고, OpenCode에서의 이 모델의 성능에 대해 극히 긍정적인 의견을 얻었습니다. 매우 유능하고 지식이 풍부하며, 도구 호출(tool calling)이 정말 좋습니다. 다만 제 머신에서 Ollama에서는 느립니다. 다른 LLM 자체 호스팅 플랫폼을 사용해 봤으며, 훨씬 더 높은 속도를 얻었습니다. Ollama를 떠나야 할 때가 된 것 같습니다. 나중에 이에 대해 좀 더 자세히 작성하겠습니다.
실용적인 권장 사항
대화형 채팅용
VRAM에 100% 들어맞는 모델을 사용하세요:
- GPT-OSS 20B — 최대 속도 (139.93 t/s)
- Ministral 3 14B — Mistral 품질과 함께 좋은 속도 (70.13 t/s)
- Qwen3 14B — 최고의 지시 따르기 (61.85 t/s)
더 나은 채팅 경험을 위해 로컬 Ollama용 오픈소스 채팅 UI를 고려하세요.
배치 처리용
이것은 다시 제 장비 - 14GB VRAM 기준입니다.
속도가 덜 중요한 경우:
- Mistral Small 3.2 24B — 우수한 언어 품질
- Qwen3-VL 30B — 비전 + 텍스트 기능
속도가 전혀 중요하지 않은 경우:
- Qwen3.5:35b - 우수한 코딩 기능
- Qwen3.5:27b - 매우 우수하지만 Ollama에서는 느립니다. 다만 저는 이 모델을 llama.cpp에서 호스팅할 때 꽤 성공적인 결과를 얻었습니다.
개발 및 코딩용
Ollama로 애플리케이션을 구축하고 있다면:
대체 호스팅 옵션
Ollama의 제한 사항이 우려된다면 (Ollama의 열화 우려) 참조), 로컬 LLM 호스팅 가이드에서 다른 옵션을 탐색하거나 Docker Model Runner vs Ollama를 비교해 보세요.
결론
16GB VRAM을 사용하면 현명하게 선택하면 인상적인 속도로 강력한 LLM을 실행할 수 있습니다. 주요 발견 사항은 다음과 같습니다:
-
대화형 사용을 위해 VRAM 한계 내에 머물세요. 140 토큰/초의 20B 모델이 대부분의 실용적인 목적에서 12 토큰/초의 120B 모델보다 우월합니다.
-
GPT-OSS 20B가 순수 속도에서 승리하지만, Qwen3 14B는 지시 따르기 작업에서 속도와 기능의 최고의 균형을 제공합니다.
-
CPU 오프로딩은 작동하지만 3-10배의 속도 감소를 예상하세요. 배치 처리에는 적합하지만 채팅에는 좌절감을 줍니다.
-
컨텍스트 크기가 중요합니다. 여기서 사용된 19K 컨텍스트는 VRAM 사용량을 상당히 증가시킵니다. GPU 활용도를 개선하기 위해 컨텍스트를 줄이세요.
로컬 LLM과 웹 결과를 결합한 AI 기반 검색에 대해서는 Ollama와 함께 Perplexica 자체 호스팅을 참조하세요.
더 많은 벤치마크, VRAM 및 처리량 트레이드오프, 그리고 Ollama 및 기타 런타임 간의 성능 튜닝을 탐색하려면 LLM 성능: 벤치마크, 병목 현상 및 최적화 허브를 확인하세요.
유용한 링크
내부 리소스
- Ollama 치트시트: 가장 유용한 Ollama 명령들
- Ollama가 병렬 요청을 처리하는 방법
- Ollama가 Intel CPU 성능 및 효율 코어를 사용하는 방법
- 로컬 LLM 호스팅: 2026 완전 가이드 - Ollama, vLLM, LocalAI, Jan, LM Studio 등