Self-Hosting

llama.cpp 라우터 모드는 수년 동안 llama-server에 도입된 변화 중 가장 유용한 변화 중 하나입니다. 이는 로컬 LLM 운영자에게 Ollama에서 기대하는 모델 관리 경험에 가까운 기능을 제공하면서도, llama.cpp를 처음부터 사용하게 만드는 원시 성능과 저레벨 제어를 그대로 유지합니다.

이 페이지는 에이전트형 LLM 추론 튜닝에 대한 실용적인 참고 자료입니다(temperature, top_p, top_k, penalties 및 다단계 및 도구 중심 워크플로우에서의 상호 작용 방식).

이미 스마트폰으로 텍스트를 통해 헤르메스 에이전트(Hermes Agent)와 대화를 나누고 계실텐데요. 이제 직접 말로 소통하고 음성으로 답변을 받아보시는 게 좋습니다. 특히 헤르메스를 영구적인 자체 호스팅 어시스턴트로 사용하고 계신다면 이는 가장 올바른 선택입니다. 작은 화면에서 긴 프롬프트를 입력하는 것은 느리고 실수가 발생하기 쉽기 때문입니다.

2026년 안전한 OpenClaw 운영을 위한 NemoClaw 실전 가이드

대부분의 AI 에이전트 스택은 보안 문제를 데모 이후의 수정 사항으로 취급합니다. NemoClaw은 정반대의 가정에서 출발하며, 격리, 정책 및 라우팅을 초기부터 기본값으로 설정합니다.

2026년 지식 관리: PKM 도구, 셀프 호스팅 위키 및 디지털 시스템

개인 지식 관리(PKM)는 옵시디언(Obsidian), 로그시크(Logseq), 도쿠위키(DokuWiki), 체텔카스턴(Zettelkasten), 그리고 PARA에 이르기까지 다양한 도구를 아우릅니다. 올바른 선택은 로컬 노트 그래프가 필요한지, 자체 호스팅 위키가 필요한지, 아니면 아웃라이너 기반 워크플로우가 필요한지에 따라 달라집니다.

에이전트 실험의 물결을 이끈 조용한 루트가 이제 막혔습니다.

Vane (Perplexica 2.0) Ollama 와 llama.cpp 를 이용한 빠른 시작

Vane 은 “인용된 AI 검색” 분야에서 더 실용적인 솔루션 중 하나입니다. 이는 실시간 웹 검색과 로컬 또는 클라우드 LLM 을 결합하면서도 전체 스택을 사용자의 통제 하에 두는 자체 호스팅형 답변 엔진입니다.

Text Generation Inference(TGI) 는 매우 특유의 에너지를 지니고 있습니다. 추론 분야에서 가장 새로운 기술은 아니지만, 이미 프로덕션 환경에서 발생하는 문제를 잘 이해하고 있습니다.

llama.cpp를 이용한 16GB VRAM LLM 벤치마크 (속도 및 컨텍스트)

여기서는 VRAM이 16GB인 GPU에서 여러 LLM의 속도를 비교하고, 자체 호스팅에 가장 적합한 모델을 선정해 보겠습니다.

호주에 RTX 5090 재고가 있습니다. 마침내. 하지만 하나를 찾아도 현실과 동떨어진 프리미엄 가격을 지불해야 합니다.

Tailscale 또는 WireGuard를 통한 원격 Ollama 접근, 공개 포트 없음

Ollama 는 로컬 데몬 (daemon) 으로 취급될 때 가장 행복해합니다: CLI 와 애플리케이션이 루프백 HTTP API 와 통신하며, 나머지 네트워크는 Ollama 의 존재를 전혀 알지 못합니다.

GPU 및 영구 모델 스토리지 사용 Docker Compose 기반 Ollama

Ollama 는 베어 메탈 (bare metal) 환경에서 훌륭하게 작동합니다. 이를 서비스처럼 다룰 때 더욱 흥미로운데, 안정적인 엔드포인트, 고정된 버전, 영구 저장소, 그리고 GPU 가 있거나 없는 명확한 상태를 보장받기 때문입니다.

Caddy 또는 Nginx를 통한 역방향 프록시 설정으로 Ollama의 HTTPS 스트리밍 구현

리버스 프록시 뒤에 Ollama 를 실행하는 것은 HTTPS, 선택적 접근 제어, 예측 가능한 스트리밍 동작을 얻는 가장 간단한 방법입니다.

RAG 및 검색을 위한 텍스트 임베딩 - Python, Ollama, OpenAI 호환 API

검색 증강 생성 (RAG)을 공부 중이시라면, 이 섹션에서는 텍스트 임베딩이 무엇인지, 검색 및 검색 (retrieval) 과 어떻게 연관되는지, 그리고 Ollama 또는 OpenAI 호환 HTTP API(많은 llama.cpp 기반 서버에서 제공하는 방식) 를 사용하여 Python에서 두 가지 일반적인 로컬 설정을 호출하는 방법을 쉽게 설명합니다.

정적 사이트와 블로그는 배포할 때마다 변경됩니다. IndexNow를 지원하는 검색 엔진 은 다음 맹목적 크롤링을 기다리지 않고도 이러한 변경 사항을 학습할 수 있습니다.

SGLang 빠른 시작: OpenAI API 를 통해 LLM 설치, 구성 및 제공

SGLang 은 단일 GPU 에서 분산 클러스터에 이르기까지 저지연 및 고휘도 추론을 제공하도록 설계된 대규모 언어 모델 및 멀티모달 모델용 고성능 서비스 프레임워크입니다.

Self-Hosting

llama.cpp 라우터 모델 재시작 없이 전체 언로드

Qwen 및 Gemma를 위한 에이전틱 LLM 추론 파라미터 참조

폰으로 허메스 음성 제어

2026년 안전한 OpenClaw 운영을 위한 NemoClaw 실전 가이드

2026년 지식 관리: PKM 도구, 셀프 호스팅 위키 및 디지털 시스템

Claude, OpenClaw, 그리고 에이전트의 플랫 페이싱 종말

Vane (Perplexica 2.0) Ollama 와 llama.cpp 를 이용한 빠른 시작

TGI - 텍스트 생성 추론 - 설치, 구성, 문제 해결

llama.cpp를 이용한 16GB VRAM LLM 벤치마크 (속도 및 컨텍스트)

호주 RTX 5090, 2026 년 3 월 가격과 재고 현실

Tailscale 또는 WireGuard를 통한 원격 Ollama 접근, 공개 포트 없음

GPU 및 영구 모델 스토리지 사용 Docker Compose 기반 Ollama

Caddy 또는 Nginx를 통한 역방향 프록시 설정으로 Ollama의 HTTPS 스트리밍 구현

RAG 및 검색을 위한 텍스트 임베딩 - Python, Ollama, OpenAI 호환 API

IndexNow 설명 - 콘텐츠를 게시할 때 검색 엔진에 알림

SGLang 빠른 시작: OpenAI API 를 통해 LLM 설치, 구성 및 제공