AI 시스템: 자체 호스팅 어시스턴트, RAG 및 로컬 인프라
대부분의 로컬 AI 설정은 모델과 런타임에서 시작합니다.
양자화 (quantized) 된 모델을 다운로드하고 Ollama 또는 다른 런타임을 통해 실행한 후 프롬프팅을 시작합니다. 실험을 위한 것이라면 이것만으로도 충분합니다. 하지만 단순한 호기심을 넘어 메모리, 검색 품질, 라우팅 결정, 비용 인식 등에 관심을 가지게 되면, 이러한 단순함의 한계가 드러나기 시작합니다.
이 클러스터는 다른 접근 방식을 탐구합니다: AI 비서를 단일 모델 호출이 아니라 조정된 시스템으로 취급하는 것입니다.
이 구분은 처음엔 미묘해 보일지 몰라도, 로컬 AI에 대한 사고방식을 완전히 바꿉니다.

AI 시스템이란 무엇인가?
AI 시스템은 단순히 모델을 넘어섭니다. 추론, 검색, 메모리, 실행을 연결하여 일관된 비서처럼 작동하도록 만드는 오케스트레이션 레이어입니다.
모델을 로컬에서 실행하는 것은 인프라 작업입니다. 그 모델을 중심으로 비서를 설계하는 것은 시스템 작업입니다.
다음과 같은 더 폭넓은 가이드를 살펴보셨다면:
- 2026 년 LLM 호스팅: 로컬, 자체 호스팅 및 클라우드 인프라 비교
- 검색 증강 생성 (RAG) 튜토리얼: 아키텍처, 구현 및 프로덕션 가이드
- 2026 년 LLM 성능: 벤치마크, 병목 현상 및 최적화
- AI 시스템을 위한 관측 가능성 (Observability)
이미 추론은 스택의 한 레이어에 불과하다는 것을 알고 계실 것입니다.
AI 시스템 클러스터는 이러한 레이어 위에 위치합니다. 이를 대체하는 것이 아니라 결합합니다.
OpenClaw: 자체 호스팅 AI 비서 시스템
OpenClaw 는 로컬 인프라에서 실행되면서도 여러 메시징 플랫폼을 아우도록 설계된 오픈소스 자체 호스팅 AI 비서입니다.
실용적인 측면에서 OpenClaw 는 다음과 같습니다:
- Ollama 또는 vLLM 과 같은 로컬 LLM 런타임을 사용합니다.
- 인덱싱된 문서에 대한 검색을 통합합니다.
- 단일 세션을 넘어 메모리를 유지합니다.
- 도구 및 자동화 작업을 실행합니다.
- 계측 (instrumentation) 및 관측이 가능합니다.
- 하드웨어 제약 내에서 작동합니다.
이는 단순히 모델을 감싸는 래퍼가 아닙니다. 추론, 검색, 메모리, 실행을 연결하여 일관된 비서처럼 작동하도록 만드는 오케스트레이션 레이어입니다.
로컬에서 실행하여 직접 설정을 살펴보고 싶다면, 로컬 Ollama 모델 또는 클라우드 기반 Claude 설정을 사용하는 Docker 기반 설치를 안내하는 OpenClaw 빠른 시작 가이드 를 참조하세요.
OpenClaw 가 더 단순한 로컬 설정과 어떻게 다른지에 대한 더 깊은 아키텍처적 탐구를 원하시면 OpenClaw 시스템 개요 를 읽어보세요.
Hermes: 스킬과 도구 샌드박싱을 갖춘 지속형 에이전트
Hermes 에이전트는 지속적 운영에 초점을 맞춘 자체 호스팅, 모델 불변 비서입니다. 장기간 프로세스로 실행할 수 있으며, 구성 가능한 백엔드를 통해 도구를 실행하고, 메모리와 재사용 가능한 스킬을 통해 시간이 지남에 따라 워크플로우를 개선할 수 있습니다.
실용적으로 Hermes 는 다음과 같은 경우 유용합니다:
- 메시징 앱으로도 연결 가능한 터미널 중심 비서가 필요할 때
- OpenAI 호환 엔드포인트와 모델 전환을 통한 제공자 유연성이 필요할 때
- 로컬 및 샌드박스 백엔드를 통한 도구 실행 경계가 필요할 때
- 진단, 로그, 구성 위생이 필요한 2 일차 (Day-two) 운영이 필요할 때
설치, 제공자 설정, 워크플로우 패턴 및 문제 해결에 대해서는 Hermes AI 비서 - 설치, 설정, 워크플로우 및 문제 해결 을 참조하세요.
AI 시스템이 다른 점
AI 시스템을 더 자세히 살펴볼 가치가 있는 몇 가지 특징이 있습니다.
모델 라우팅을 설계 선택으로
대부분의 로컬 설정은 기본적으로 하나의 모델을 사용합니다. AI 시스템은 의도적으로 모델을 선택하는 것을 지원합니다.
이는 다음과 같은 질문을 던집니다:
- 작은 요청은 작은 모델을 사용해야 할까요?
- 추론이 더 큰 컨텍스트 윈도우를 정당화하는 시점은 언제인가요?
- 토큰 1,000 개당 비용 차이는 얼마인가요?
이러한 질문들은 LLM 성능 가이드 에서 논의된 성능 트레이드오프와 LLM 호스팅 가이드 에 명시된 인프라 결정과 직접적으로 연결됩니다.
AI 시스템은 이러한 결정을 숨기지 않고 표면으로 끌어올립니다.
검색은 진화하는 구성 요소로 취급됩니다
AI 시스템은 문서 검색을 통합하지만, 단순한 “임베드 및 검색” 단계로만 간주하지는 않습니다.
다음 사항을 인정합니다:
- 청크 (chunk) 크기는 재현율 (recall) 과 비용에 영향을 미칩니다.
- 하이브리드 검색 (BM25 + 벡터) 은 순수 밀집 검색 (dense retrieval) 보다 성능이 더 좋을 수 있습니다.
- 재순위화 (reranking) 는 지연 시간을 희생하여 관련성을 향상시킵니다.
- 인덱싱 전략은 메모리 사용량에 영향을 미칩니다.
이러한 주제들은 RAG 튜토리얼 에서 논의된 더 깊은 아키텍처적 고려 사항과 일치합니다.
차이점은 AI 시스템이 검색을 고립된 데모로 제시하는 것이 아니라, 살아있는 비서에 검색을 내장한다는 점입니다.
메모리를 인프라로
상태 없는 (Stateless) LLM 은 세션 간 모든 것을 잊어버립니다.
AI 시스템은 영구적인 메모리 레이어를 도입합니다. 이는 곧 설계 질문을 제기합니다:
- 장기적으로 무엇을 저장해야 할까요?
- 언제 컨텍스트를 요약해야 할까요?
- 토큰 폭발을 어떻게 방지할까요?
- 메모리를 어떻게 효율적으로 인덱싱할까요?
이러한 질문들은 데이터 인프라 가이드 의 데이터 레이어 고려 사항과 직접적으로 교차합니다.
메모리는 기능이 아닌 저장소 문제가 됩니다.
관측 가능성은 선택 사항이 아닙니다
대부분의 로컬 AI 실험은 “응답한다"는 단계에서 멈춥니다.
AI 시스템은 다음을 관찰할 수 있도록 합니다:
- 토큰 사용량
- 지연 시간
- 하드웨어 활용도
- 처리량 패턴
이는 관측 가능성 가이드 에서 설명된 모니터링 원칙과 자연스럽게 연결됩니다.
AI 가 하드웨어에서 실행된다면, 다른 워크로드와 마찬가지로 측정 가능해야 합니다.
사용해보면 어떤 느낌인가?
바깥에서 볼 때 AI 시스템은 여전히 채팅 인터페이스처럼 보일 수 있습니다.
하지만 표면 아래에서는 더 많은 일이 일어납니다.
로컬에 저장된 기술 보고서를 요약해 달라고 요청하면:
- 관련 문서 세그먼트를 검색합니다.
- 적절한 모델을 선택합니다.
- 응답을 생성합니다.
- 토큰 사용량과 지연 시간을 기록합니다.
- 필요한 경우 영구 메모리를 업데이트합니다.
가시적인 상호작용은 단순하게 유지됩니다. 시스템 행동은 레이어화되어 있습니다.
이러한 레이어화된 행동이 시스템과 데모를 구분합니다.
스택에서 AI 시스템의 위치
AI 시스템 클러스터는 여러 인프라 레이어의 교차점에 위치합니다:
- LLM 호스팅: 모델이 실행되는 런타임 레이어 (Ollama, vLLM, llama.cpp)
- RAG: 컨텍스트와 근거를 제공하는 검색 레이어
- 성능: 지연 시간과 처리량을 추적하는 측정 레이어
- 관측 가능성: 지표 및 비용 추적을 제공하는 모니터링 레이어
- 데이터 인프라: 메모리 및 인덱싱을 처리하는 저장 레이어
이 구분을 이해하는 것이 유용합니다. 직접 실행하면 차이가 더 명확해집니다.
OpenClaw 를 사용한 최소한의 로컬 설치에 대해서는 로컬 Ollama 모델 또는 클라우드 기반 Claude 설정을 사용하는 Docker 기반 설정을 안내하는 OpenClaw 빠른 시작 가이드 를 참조하세요.
설정이 Claude 에 의존한다면, 에이전트 도구를 위한 정책 변경 은 제 3 자 OpenClaw 워크플로우에서 이제 API бил링이 필요한 이유를 명확히 합니다.