Ollama

올라마가 병렬 요청을 처리하는 방법

올라마가 병렬 요청을 처리하는 방법

Ollama의 동시성 및 큐잉 메커니즘을 이해하고, 안정적인 병렬 요청 처리를 위해 OLLAMA_NUM_PARALLEL을 튜닝하는 방법을 알아봅니다.

이 가이드에서는 Ollama가 병렬 요청을 처리하는 방식(동시성, 큐잉 및 자원 제한)과 OLLAMA_NUM_PARALLEL 환경 변수(및 관련 설정)를 사용하여 이를 최적화하는 방법을 설명합니다.

Ollama에서 Deepseek-R1 테스트

Ollama에서 Deepseek-R1 테스트

두 개의 deepseek-r1 모델을 두 개의 기본 모델과 비교합니다.

DeepSeek’s 첫 세대 추론 모델로, OpenAI-o1과 유사한 성능을 보입니다. 이 모델은 Llama와 Qwen을 기반으로 한 DeepSeek-R1에서 추출한 6개의 밀집 모델입니다.

팔팔레 대 퍼플렉시카

팔팔레 대 퍼플렉시카

두 개의 자체 호스팅 AI 검색 엔진 비교

아름다운 음식은 눈으로도 즐길 수 있는 즐거움입니다. 하지만 이번 포스팅에서는 두 가지 AI 기반 검색 시스템인 Farfalle 와 Perplexica 를 비교해 보겠습니다.

Ollama 를 활용한 Perplexica 자체 호스팅

Ollama 를 활용한 Perplexica 자체 호스팅

로컬에서 코파일럿 스타일 서비스를 실행하시나요? 간단합니다!

정말 흥미진진합니다!

코파일럿 (Copilot) 이나 perplexity.ai 에 접속하여 전 세계에 당신의 의도를 알릴 필요 없이, 이제 자신의 PC 나 노트북에서 유사한 서비스를 직접 호스팅할 수 있습니다!

Gemma2 vs Qwen2 vs Mistral Nemo vs...

Gemma2 vs Qwen2 vs Mistral Nemo vs...

논리적 오류 탐지 테스트

최근 몇몇 새로운 LLM이 출시되었습니다. 흥미로운 시기입니다. 논리적 오류를 감지하는 데 이 모델들이 어떻게 수행되는지 테스트해 보겠습니다.

LLM을 위한 효과적인 프롬프트 작성

LLM을 위한 효과적인 프롬프트 작성

일부 실험을 필요로 하지만

아직도 LLM이 당신이 원하는 것을 이해하려고 애를 쓰지 않도록 하기 위해 효과적인 프롬프트를 작성하는 데 사용되는 일반적인 접근 방법이 몇 가지 있습니다.