LLM Performance

현대 세계의 혼란 속에서 저는 AI 작업(딥러닝, 객체 탐지 및 LLM)에 적합한 다양한 그래픽 카드의 사양을 비교하고 있습니다. 하지만 이 카드들은 모두 가격이 매우 비쌉니다.

이 가이드에서는 Ollama가 병렬 요청을 처리하는 방식(동시성, 큐잉 및 자원 제한)과 OLLAMA_NUM_PARALLEL 환경 변수(및 관련 설정)를 사용하여 이를 최적화하는 방법을 설명합니다.

지난 시간에 새로운 버전이 출시되었습니다. 지금까지의 내용을 확인하고, 기타 LLM과 비교하여 Mistral Small의 성능을 테스트해보세요.

최근 몇몇 새로운 LLM이 출시되었습니다. 흥미로운 시기입니다. 논리적 오류를 감지하는 데 이 모델들이 어떻게 수행되는지 테스트해 보겠습니다.

다양한 파라미터 수와 양자화된 모델들이 어떻게 작동하는지 테스트해보았습니다.

다양한 버전의 LLM(llama3, phi3, gemma, mistral)의 예측 속도를 CPU와 GPU에서 비교합니다.

AI에 적합한 NVIDIA GPU 비교