LLM Performance

16GB VRAM GPU에서 Ollama 상의 LLM 성능 비교

16GB VRAM GPU에서 Ollama 상의 LLM 성능 비교

RTX 4080 16GB VRAM에서의 LLM 속도 테스트

로컬에서 대규모 언어 모델을 실행하면 프라이버시, 오프라인 기능, API 비용이 전혀 들지 않습니다.
이 벤치마크는 RTX 4080에서 Ollama를 사용하여 실행되는 9개의 인기 있는 LLMs on Ollama on an RTX 4080에서 기대할 수 있는 내용을 정확히 보여줍니다.

LLM ASIC의 등장: 추론 하드웨어가 중요한 이유

LLM ASIC의 등장: 추론 하드웨어가 중요한 이유

전문적인 칩이 AI 추론을 더 빠르고 저렴하게 만들어가고 있습니다.

AI의 미래는 단지 더 똑똑한 모델에만 달려 있지 않다. 그것은 더 똑똑한 실리콘에 달려 있다.
LLM 추론을 위한 전용 하드웨어는 비트코인 채굴이 ASIC으로 이동했던 것과 유사한 혁명을 이끌고 있다.

비교: Qwen3:30b vs GPT-OSS:20b

비교: Qwen3:30b vs GPT-OSS:20b

이 두 모델의 속도, 파라미터 및 성능 비교

다음은 Qwen3:30b와 GPT-OSS:20b 사이의 비교입니다. 지시사항 준수 및 성능 파라미터, 사양 및 속도에 초점을 맞추고 있습니다.

Ollama가 병렬 요청을 처리하는 방식

Ollama가 병렬 요청을 처리하는 방식

병렬 요청 실행을 위해 ollama 구성하기.

Ollama 서버가 동일한 시간에 두 개의 요청을 받을 경우, 그 동작은 구성 설정과 사용 가능한 시스템 자원에 따라 달라집니다.

Gemma2 vs Qwen2 vs Mistral Nemo vs...

Gemma2 vs Qwen2 vs Mistral Nemo vs...

논리적 오류 탐지 테스트

최근 몇몇 새로운 LLM이 출시되었습니다. 흥미로운 시기입니다. 논리적 오류를 감지하는 데 이 모델들이 어떻게 수행되는지 테스트해 보겠습니다.

LLM 요약 능력 비교

LLM 요약 능력 비교

8개의 llama3 (Meta+) 및 5개의 phi3 (Microsoft) LLM 버전

다양한 파라미터 수와 양자화된 모델들이 어떻게 작동하는지 테스트해보았습니다.

대규모 언어 모델 속도 테스트

대규모 언어 모델 속도 테스트

GPU 대 CPU에서 LLM의 속도를 테스트해 보겠습니다.

다양한 버전의 LLM(llama3, phi3, gemma, mistral)의 예측 속도를 CPU와 GPU에서 비교합니다.