Performance

A performance engineering hub for running LLMs efficiently: runtime behavior, bottlenecks, benchmarks, and the real constraints that shape throughput and latency.

Hugo 캐싱 전략은 정적 사이트 생성기의 성능을 극대화하는 데 필수적입니다. Hugo는 본질적으로 빠른 정적 파일을 생성하지만, 여러 계층에서 적절한 캐싱을 구현하면 빌드 시간을 크게 개선하고 서버 부하를 줄이며 사용자 경험을 향상시킬 수 있습니다.

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Ollama 성능 비교

저는 Ollama에서 실행되는 GPT-OSS 120b의 성능 테스트 결과를 NVIDIA DGX Spark, Mac Studio, RTX 4080 세 가지 플랫폼에서 확인해보았습니다. Ollama 라이브러리에서 제공하는 GPT-OSS 120b 모델의 크기는 65GB로, RTX 4080의 16GB VRAM에 맞지 않으며, 더 최근의 RTX 5080에도 맞지 않습니다.

Ollama의 GPT-OSS 모델은 특히 LangChain, OpenAI SDK, vllm과 같은 프레임워크와 함께 사용될 때 구조화된 출력을 처리하는 데 반복적으로 문제가 발생합니다.

여기에서 저는 새로운 버전의 Ollama가 모델에 얼마나 많은 VRAM을 할당하는지와 이전 버전의 Ollama를 비교하고 있습니다. 새로운 버전은 오히려 더 나빠졌습니다.

PCIe 랜의 수가 LLM 성능에 미치는 영향? 작업에 따라 다릅니다. 훈련 및 멀티 GPU 추론의 경우 성능 저하가 상당합니다.

테스트: 인텔 CPU 성능과 효율적인 코어를 어떻게 Ollama가 사용하는가

제가 테스트하고 싶은 이론은, 인텔 CPU에서 모든 코어를 사용하면 LLM의 속도가 빨라질까?입니다.
새로운 gemma3 27비트 모델(gemma3:27b, ollama에서 17GB)이 제 GPU의 16GB VRAM에 맞지 않아, 부분적으로 CPU에서 실행되고 있다는 점이 제게 짜증을 주고 있습니다.

이 가이드에서는 Ollama가 병렬 요청을 처리하는 방식(동시성, 큐잉 및 자원 제한)과 OLLAMA_NUM_PARALLEL 환경 변수(및 관련 설정)를 사용하여 이를 최적화하는 방법을 설명합니다.

지난 시간에 새로운 버전이 출시되었습니다. 지금까지의 내용을 확인하고, 기타 LLM과 비교하여 Mistral Small의 성능을 테스트해보세요.

다양한 버전의 LLM(llama3, phi3, gemma, mistral)의 예측 속도를 CPU와 GPU에서 비교합니다.

Performance

2026년 LLM 성능: 벤치마크, 병목 현상 및 최적화

성능을 위한 허구 캐싱 전략

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Ollama 성능 비교

Ollama GPT-OSS 구조화된 출력 문제

Ollama 새 버전(0.12.1)의 메모리 할당 및 모델 스케줄링

LLM 성능과 PCIe 라인: 주요 고려사항

테스트: 인텔 CPU 성능과 효율적인 코어를 어떻게 Ollama가 사용하는가

올라마가 병렬 요청을 처리하는 방법

미스트럴 스몰, 게마 2, 퀵 2.5, 미스트럴 네모, LLama3 및 피 - LLM 테스트

대규모 언어 모델 속도 테스트