LLM Performance

올라마가 병렬 요청을 처리하는 방법

올라마가 병렬 요청을 처리하는 방법

Ollama의 동시성 및 큐잉 메커니즘을 이해하고, 안정적인 병렬 요청 처리를 위해 OLLAMA_NUM_PARALLEL을 튜닝하는 방법을 알아봅니다.

이 가이드에서는 Ollama가 병렬 요청을 처리하는 방식(동시성, 큐잉 및 자원 제한)과 OLLAMA_NUM_PARALLEL 환경 변수(및 관련 설정)를 사용하여 이를 최적화하는 방법을 설명합니다.

Gemma2 vs Qwen2 vs Mistral Nemo vs...

Gemma2 vs Qwen2 vs Mistral Nemo vs...

논리적 오류 탐지 테스트

최근 몇몇 새로운 LLM이 출시되었습니다. 흥미로운 시기입니다. 논리적 오류를 감지하는 데 이 모델들이 어떻게 수행되는지 테스트해 보겠습니다.

LLM 요약 능력 비교

LLM 요약 능력 비교

8개의 llama3 (Meta+) 및 5개의 phi3 (Microsoft) LLM 버전

다양한 파라미터 수와 양자화된 모델들이 어떻게 작동하는지 테스트해보았습니다.

대규모 언어 모델 속도 테스트

대규모 언어 모델 속도 테스트

GPU 대 CPU에서 LLM의 속도를 테스트해 보겠습니다.

다양한 버전의 LLM(llama3, phi3, gemma, mistral)의 예측 속도를 CPU와 GPU에서 비교합니다.