16GB VRAM GPU에서 Ollama 상의 LLM 성능 비교
RTX 4080 16GB VRAM에서의 LLM 속도 테스트
로컬에서 대규모 언어 모델을 실행하면 프라이버시, 오프라인 기능, API 비용이 전혀 들지 않습니다.
이 벤치마크는 RTX 4080에서 Ollama를 사용하여 실행되는 9개의 인기 있는 LLMs on Ollama on an RTX 4080에서 기대할 수 있는 내용을 정확히 보여줍니다.
RTX 4080 16GB VRAM에서의 LLM 속도 테스트
로컬에서 대규모 언어 모델을 실행하면 프라이버시, 오프라인 기능, API 비용이 전혀 들지 않습니다.
이 벤치마크는 RTX 4080에서 Ollama를 사용하여 실행되는 9개의 인기 있는 LLMs on Ollama on an RTX 4080에서 기대할 수 있는 내용을 정확히 보여줍니다.
GPT-OSS 120b의 세 AI 플랫폼에서의 벤치마크
저는 Ollama에서 실행되는 GPT-OSS 120b의 성능 테스트 결과를 NVIDIA DGX Spark, Mac Studio, RTX 4080 세 가지 플랫폼에서 확인해보았습니다. Ollama 라이브러리에서 제공하는 GPT-OSS 120b 모델의 크기는 65GB로, RTX 4080의 16GB VRAM에 맞지 않으며, 더 최근의 RTX 5080에도 맞지 않습니다.
전문적인 칩이 AI 추론을 더 빠르고 저렴하게 만들어가고 있습니다.
이 두 모델의 속도, 파라미터 및 성능 비교
다음은 Qwen3:30b와 GPT-OSS:20b 사이의 비교입니다. 지시사항 준수 및 성능 파라미터, 사양 및 속도에 초점을 맞추고 있습니다.
매우 좋지 않다.
Ollama의 GPT-OSS 모델은 특히 LangChain, OpenAI SDK, vllm과 같은 프레임워크와 함께 사용될 때 구조화된 출력을 처리하는 데 반복적으로 문제가 발생합니다.
내가 직접 수행한 ollama 모델 스케줄링 테스트
여기에서 저는 새로운 버전의 Ollama가 모델에 얼마나 많은 VRAM을 할당하는지와 이전 버전의 Ollama를 비교하고 있습니다. 새로운 버전은 오히려 더 나빠졌습니다.
LLM용으로 두 번째 GPU를 설치할 생각이신가요?
PCIe 랜의 수가 LLM 성능에 미치는 영향? 작업에 따라 다릅니다. 훈련 및 멀티 GPU 추론의 경우 성능 저하가 상당합니다.
인텔 CPU의 효율성 코어 vs 성능 코어에서의 Ollama
제가 테스트하고 싶은 이론은, 인텔 CPU에서 모든 코어를 사용하면 LLM의 속도가 빨라질까?입니다.
새로운 gemma3 27비트 모델(gemma3:27b, ollama에서 17GB)이 제 GPU의 16GB VRAM에 맞지 않아, 부분적으로 CPU에서 실행되고 있다는 점이 제게 짜증을 주고 있습니다.
AI는 많은 컴퓨팅 파워가 필요합니다...
현대 세계의 혼란 속에서 저는 다른 카드의 기술 사양 비교를 진행하고 있습니다. 이는 AI 작업에 적합한 카드들입니다.
(딥러닝,
객체 감지,
LLMs).
하지만 이 모든 카드는 매우 비싸죠.
병렬 요청 실행을 위해 ollama 구성하기.
Ollama 서버가 동일한 시간에 두 개의 요청을 받을 경우, 그 동작은 구성 설정과 사용 가능한 시스템 자원에 따라 달라집니다.
LLM 테스트 다음 라운드
지난 시간에 새로운 버전이 출시되었습니다. 지금까지의 내용을 확인하고, 기타 LLM과 비교하여 Mistral Small의 성능을 테스트해보세요.
논리적 오류 탐지 테스트
최근 몇몇 새로운 LLM이 출시되었습니다. 흥미로운 시기입니다. 논리적 오류를 감지하는 데 이 모델들이 어떻게 수행되는지 테스트해 보겠습니다.
8개의 llama3 (Meta+) 및 5개의 phi3 (Microsoft) LLM 버전
다양한 파라미터 수와 양자화된 모델들이 어떻게 작동하는지 테스트해보았습니다.
GPU 대 CPU에서 LLM의 속도를 테스트해 보겠습니다.
다양한 버전의 LLM(llama3, phi3, gemma, mistral)의 예측 속도를 CPU와 GPU에서 비교합니다.