성능을 위한 허구 캐싱 전략
후고 사이트의 개발 및 실행 최적화
Hugo 캐싱 전략은 정적 사이트 생성기의 성능을 극대화하는 데 필수적입니다. Hugo는 본질적으로 빠른 정적 파일을 생성하지만, 여러 계층에서 적절한 캐싱을 구현하면 빌드 시간을 크게 개선하고 서버 부하를 줄이며 사용자 경험을 향상시킬 수 있습니다.
후고 사이트의 개발 및 실행 최적화
Hugo 캐싱 전략은 정적 사이트 생성기의 성능을 극대화하는 데 필수적입니다. Hugo는 본질적으로 빠른 정적 파일을 생성하지만, 여러 계층에서 적절한 캐싱을 구현하면 빌드 시간을 크게 개선하고 서버 부하를 줄이며 사용자 경험을 향상시킬 수 있습니다.
GPT-OSS 120b의 세 AI 플랫폼에서의 벤치마크
저는 Ollama에서 실행되는 GPT-OSS 120b의 성능 테스트 결과를 NVIDIA DGX Spark, Mac Studio, RTX 4080 세 가지 플랫폼에서 확인해보았습니다. Ollama 라이브러리에서 제공하는 GPT-OSS 120b 모델의 크기는 65GB로, RTX 4080의 16GB VRAM에 맞지 않으며, 더 최근의 RTX 5080에도 맞지 않습니다.
매우 좋지 않다.
Ollama의 GPT-OSS 모델은 특히 LangChain, OpenAI SDK, vllm과 같은 프레임워크와 함께 사용될 때 구조화된 출력을 처리하는 데 반복적으로 문제가 발생합니다.
내가 직접 수행한 ollama 모델 스케줄링 테스트
여기에서 저는 새로운 버전의 Ollama가 모델에 얼마나 많은 VRAM을 할당하는지와 이전 버전의 Ollama를 비교하고 있습니다. 새로운 버전은 오히려 더 나빠졌습니다.
LLM용으로 두 번째 GPU를 설치할 생각이신가요?
PCIe 랜의 수가 LLM 성능에 미치는 영향? 작업에 따라 다릅니다. 훈련 및 멀티 GPU 추론의 경우 성능 저하가 상당합니다.
인텔 CPU의 효율성 코어 vs 성능 코어에서의 Ollama
제가 테스트하고 싶은 이론은, 인텔 CPU에서 모든 코어를 사용하면 LLM의 속도가 빨라질까?입니다.
새로운 gemma3 27비트 모델(gemma3:27b, ollama에서 17GB)이 제 GPU의 16GB VRAM에 맞지 않아, 부분적으로 CPU에서 실행되고 있다는 점이 제게 짜증을 주고 있습니다.
Ollama의 동시성 및 큐잉 메커니즘을 이해하고, 안정적인 병렬 요청 처리를 위해 OLLAMA_NUM_PARALLEL을 튜닝하는 방법을 알아봅니다.
이 가이드에서는 Ollama가 병렬 요청을 처리하는 방식(동시성, 큐잉 및 자원 제한)과 OLLAMA_NUM_PARALLEL 환경 변수(및 관련 설정)를 사용하여 이를 최적화하는 방법을 설명합니다.
LLM 테스트 다음 라운드
지난 시간에 새로운 버전이 출시되었습니다. 지금까지의 내용을 확인하고, 기타 LLM과 비교하여 Mistral Small의 성능을 테스트해보세요.
GPU 대 CPU에서 LLM의 속도를 테스트해 보겠습니다.
다양한 버전의 LLM(llama3, phi3, gemma, mistral)의 예측 속도를 CPU와 GPU에서 비교합니다.