Ollama

GPU 및 영구 모델 스토리지 사용 Docker Compose 기반 Ollama

GPU 및 영구 모델 스토리지 사용 Docker Compose 기반 Ollama

GPU 와 영속성을 갖춘 Compose 우선 Ollama 서버

Ollama 는 베어 메탈 (bare metal) 환경에서 훌륭하게 작동합니다. 이를 서비스처럼 다룰 때 더욱 흥미로운데, 안정적인 엔드포인트, 고정된 버전, 영구 저장소, 그리고 GPU 가 있거나 없는 명확한 상태를 보장받기 때문입니다.

RAG 및 검색을 위한 텍스트 임베딩 - Python, Ollama, OpenAI 호환 API

RAG 및 검색을 위한 텍스트 임베딩 - Python, Ollama, OpenAI 호환 API

RAG 임베딩 - Python, Ollama, OpenAI API.

검색 증강 생성 (RAG)을 공부 중이시라면, 이 섹션에서는 텍스트 임베딩이 무엇인지, 검색 및 검색 (retrieval) 과 어떻게 연관되는지, 그리고 Ollama 또는 OpenAI 호환 HTTP API(많은 llama.cpp 기반 서버에서 제공하는 방식) 를 사용하여 Python에서 두 가지 일반적인 로컬 설정을 호출하는 방법을 쉽게 설명합니다.

LLM 자체 호스팅 및 AI 주권

LLM 자체 호스팅 및 AI 주권

자체 호스팅된 LLM을 사용하여 데이터 및 모델을 제어하세요.

자체 호스팅된 LLM(대규모 언어 모델)은 데이터, 모델, 추론을 사용자의 통제 하에 유지함으로써 팀, 기업, 국가를 위한 **AI 주권**을 달성하는 실용적인 방법입니다.

16GB VRAM GPU에서 Ollama를 사용한 LLM 성능 비교

16GB VRAM GPU에서 Ollama를 사용한 LLM 성능 비교

RTX 4080(16GB VRAM)에서의 LLM 속도 테스트

로컬에서 대규모 언어 모델을 실행하면 개인 정보 보호, 오프라인 기능, API 비용 0원 등의 이점을 얻을 수 있습니다. 이 벤치마크는 RTX 4080에서 Ollama를 사용한 14개의 인기 있는 LLM의 성능을 정확하게 보여줍니다.

BAML 대 교수: 구조화된 LLM 출력

BAML 대 교수: 구조화된 LLM 출력

BAML 및 Instructor를 활용한 타입 안전한 LLM 출력

대규모 언어 모델(Large Language Models, LLM)을 프로덕션 환경에서 사용할 때, 구조화된 타입 안전한 출력을 얻는 것은 매우 중요합니다.
인기 있는 두 프레임워크인 BAML 및 Instructor은 이 문제를 해결하기 위해 서로 다른 접근 방식을 사용합니다.

Cognee에 적합한 LLM 선택: 로컬 Ollama 설정

Cognee에 적합한 LLM 선택: 로컬 Ollama 설정

자체 호스팅된 Cognee를 위한 LLM에 대한 고찰

Best LLM for Cognee을 선택할 때는 그래프 생성 품질, 환상 발생 비율, 하드웨어 제약 조건 사이에서 균형을 유지해야 합니다.
Cognee는 Ollama를 통해 32B 이상의 저환상 모델을 사용하여 우수한 성능을 보입니다. 그러나 중간 규모의 모델도 가벼운 설정에 적합합니다.