LongRAG이 표준 RAG보다 주요한 이점은 무엇인가요?

LongRAG은 긴 문서를 처리할 때 전체 문서나 큰 크기의 문서 조각을 맥락으로 처리하여 정보의 분할을 줄이고, 긴 범위 의존성에 걸쳐 더 나은 의미적 일관성을 유지하는 데 뛰어납니다. 이 접근법은 확장된 맥락 창(32K 이상 토큰)을 지원하는 LLM을 사용할 때 특히 효과적입니다.

Self-RAG은 어떻게 검색 품질을 개선합니까?

Self-RAG는 모델이 자체적으로 검색 및 생성 과정을 비판할 수 있는 자기 반성 메커니즘을 도입합니다. 이는 정보 검색 시점을 결정하고, 검색된 문서의 관련성을 평가하며, 생성된 응답의 품질을 평가함으로써 더 정확하고 신뢰성 있는 출력을 가능하게 합니다.

GraphRAG 대신 전통적인 RAG를 사용해야 하는 경우는 언제인가요?

GraphRAG은 엔티티 간 복잡한 관계가 있는 영역, 예를 들어 연구 논문, 법적 문서 또는 지식 베이스에 이상적입니다. 표준 벡터 유사도가 효과적으로 포착하지 못하는 다중 엔티티 간의 연결, 시간적 관계 또는 계층 구조를 이해해야 하는 쿼리에서 특히 우수합니다.

이러한 RAG 변형들은 결합될 수 있을까요?

네, 하이브리드 접근 방식은 점점 더 흔해지고 있습니다. GraphRAG의 구조화된 지식 표현 방식과 Self-RAG의 반성 메커니즘을 결합하거나, LongRAG의 청크화 전략과 그래프 기반 검색을 함께 사용할 수 있습니다. 핵심은 특정 사용 사례와 계산적 제약 조건에 맞는 조합을 선택하는 것입니다.

이러한 고급 RAG 변형의 계산 비용은 무엇인가요?

GraphRAG은 일반적으로 엔티티 추출 및 그래프 구축으로 인해 인덱싱 비용이 높지만, 쿼리 시간은 표준 RAG과 비슷할 수 있습니다. Self-RAG은 반성 단계에서 오버헤드가 발생하여 추론 시간이 20~40% 더 길어집니다. LongRAG은 대규모 컨텍스트 윈도우를 지원하는 모델이 필요하므로 메모리 사용량과 추론 지연 시간이 증가합니다.

고급 RAG: LongRAG, Self-RAG 및 GraphRAG 설명

LongRAG, Self-RAG, GraphRAG - 차세대 기술

Page content

검색 기반 생성 (RAG) 는 단순한 벡터 유사도 검색을 넘어 발전해 왔습니다.
LongRAG, Self-RAG, GraphRAG는 이러한 기능의 최첨단을 대표합니다.

현대 RAG 시스템은 대규모 문서를 처리하고 복잡한 엔티티 관계를 이해하는 등 더 많은 기능을 필요로 합니다.

a-pirate-captain 이 아름다운 이미지는 AI 모델 Flux 1 dev에 의해 생성되었습니다.

기본 RAG를 넘어선 진화

전통적인 RAG 시스템은 간단한 패턴을 따릅니다: 문서를 청크로 나누고, 벡터로 인코딩한 후, 코사인 유사도를 통해 유사한 청크를 검색하고, LLM에 전달합니다. 많은 사용 사례에 효과적이지만, 이 접근법은 세 가지 중요한 시나리오에서 어려움을 겪습니다:

장거리 의존성: 중요한 맥락은 여러 청크에 걸쳐 수천 개의 토큰을 포함할 수 있습니다.
검색 신뢰도: 검색된 내용이 실제로 관련성이 있는지 평가할 수 있는 방법이 없습니다.
관계 복잡성: 벡터 유사도는 엔티티 간의 복잡한 연결을 포착할 수 없습니다.

고급 RAG 변형은 특정 문제에 맞춘 특화된 아키텍처를 통해 이러한 한계를 해결합니다.

LongRAG: 확장된 맥락 정복

아키텍처 개요

LongRAG는 확장된 맥락 창(32K, 100K, 또는 1M 토큰)을 가진 LLM을 활용하여 청크링 전략을 근본적으로 재고합니다. 작은 512토큰 청크로 문서를 나누는 대신, LongRAG는 계층적 접근법을 사용합니다:

문서 수준 임베딩: 전체 문서(또는 매우 큰 섹션)는 단일 단위로 처리됩니다. 문서 수준 임베딩은 전체 의미적 의미를 포착하면서도 하류 처리를 위해 전체 텍스트를 유지합니다.

최소한의 분할: 청크링이 필요할 경우, LongRAG는 훨씬 큰 청크(4K-8K 토큰)를 사용하며, 큰 중첩(20-30%)을 적용합니다. 이는 서사 흐름을 유지하고 맥락 분할을 줄입니다.

맥락 조립: 검색 시점에서 LongRAG는 산란된 조각이 아닌 완전한 문서 또는 대규모 일관된 섹션을 반환합니다. LLM은 구조적 및 의미적 관계를 유지한 연속적인 맥락을 받습니다.

구현 전략

Python과 최신 임베딩 모델을 사용한 개념적 구현 예시입니다:

from typing import List, Dict
import numpy as np

class LongRAGRetriever:
    def __init__(self, model, chunk_size=8000, overlap=1600):
        self.model = model
        self.chunk_size = chunk_size
        self.overlap = overlap
        self.doc_embeddings = []
        self.documents = []
    
    def create_long_chunks(self, text: str) -> List[str]:
        """대규모 중첩 청크 생성"""
        chunks = []
        start = 0
        while start < len(text):
            end = start + self.chunk_size
            chunk = text[start:end]
            chunks.append(chunk)
            start += (self.chunk_size - self.overlap)
        return chunks
    
    def index_document(self, doc: str, metadata: Dict):
        """계층적 임베딩을 사용한 문서 인덱싱"""
        # 전체 문서 임베딩
        doc_embedding = self.model.embed(doc)
        
        # 대규모 청크 생성
        chunks = self.create_long_chunks(doc)
        chunk_embeddings = [self.model.embed(c) for c in chunks]
        
        self.doc_embeddings.append({
            'doc_id': len(self.documents),
            'doc_embedding': doc_embedding,
            'chunk_embeddings': chunk_embeddings,
            'chunks': chunks,
            'full_text': doc,
            'metadata': metadata
        })
        self.documents.append(doc)
    
    def retrieve(self, query: str, top_k: int = 3) -> List[Dict]:
        """관련된 장문의 콘텐츠 검색"""
        query_embedding = self.model.embed(query)
        
        # 먼저 문서 수준에서 점수 계산
        doc_scores = [
            np.dot(query_embedding, doc['doc_embedding'])
            for doc in self.doc_embeddings
        ]
        
        # 상위 문서 선택
        top_doc_indices = np.argsort(doc_scores)[-top_k:][::-1]
        
        results = []
        for idx in top_doc_indices:
            doc_data = self.doc_embeddings[idx]
            
            # 각 문서에서 최고 청크 선택
            chunk_scores = [
                np.dot(query_embedding, emb)
                for emb in doc_data['chunk_embeddings']
            ]
            best_chunk_idx = np.argmax(chunk_scores)
            
            # 최고 청크 주변 확장 맥락 반환
            context_chunks = self._get_extended_context(
                doc_data['chunks'], 
                best_chunk_idx
            )
            
            results.append({
                'text': ''.join(context_chunks),
                'score': doc_scores[idx],
                'metadata': doc_data['metadata']
            })
        
        return results
    
    def _get_extended_context(self, chunks: List[str], 
                             center_idx: int) -> List[str]:
        """관련 청크 주변 확장 맥락 생성"""
        start = max(0, center_idx - 1)
        end = min(len(chunks), center_idx + 2)
        return chunks[start:end]

사용 사례 및 성능

LongRAG은 맥락이 중요한 시나리오에서 우수한 성능을 보입니다:

법률 문서 분석: 계약서 및 법적 문서는 수십 페이지에 걸쳐 의존성이 있을 수 있습니다.
연구 논문 검색: 방법론을 이해하려면 단일 단락이 아닌 일관된 섹션이 필요합니다.
코드 저장소: 함수와 클래스는 모듈 맥락 내에서 이해되어야 합니다.

성능 특성:

지연 시간: 대규모 청크 처리로 인해 표준 RAG 대비 2~5배 느릴 수 있습니다.
정확도: 장문 QA 벤치마크에서 15~25% 향상된 성능을 보입니다.
메모리: 맥락 창에 따라 3~4배 더 많은 메모리가 필요합니다.

Self-RAG: 반성적 검색

핵심 원리

Self-RAG는 RAG 시스템에 메타인지 계층을 도입합니다. 검색과 생성을 무작정 수행하는 대신, 시스템은 특별한 반성 토큰을 통해 자신의 프로세스를 적극적으로 반성합니다:

검색 토큰: 주어진 쿼리에 대해 검색이 필요한지 결정합니다. 관련성 토큰: 검색된 문서가 실제로 관련성이 있는지 평가합니다. 지원 토큰: 생성된 답변이 검색된 콘텐츠에 의해 지원되는지 확인합니다. 비판 토큰: 생성된 답변의 전체 품질을 평가합니다.

아키텍처 구성 요소

Self-RAG 아키텍처는 세 개의 교차된 단계로 구성됩니다:

class SelfRAGSystem:
    def __init__(self, retriever, generator, critic):
        self.retriever = retriever
        self.generator = generator
        self.critic = critic
    
    def generate_with_reflection(self, query: str, 
                                 max_iterations: int = 3):
        """반성과 함께 답변 생성"""
        
        # 단계 1: 검색이 필요한지 결정
        retrieve_decision = self.critic.should_retrieve(query)
        
        if not retrieve_decision:
            # 검색 없이 생성
            return self.generator.generate(query)
        
        # 단계 2: 검색 및 관련성 평가
        retrieved_docs = self.retriever.retrieve(query)
        relevant_docs = []
        
        for doc in retrieved_docs:
            relevance_score = self.critic.assess_relevance(
                query, doc
            )
            if relevance_score > 0.7:  # 임계값
                relevant_docs.append(doc)
        
        if not relevant_docs:
            # 검색 없이 생성
            return self.generator.generate(query)
        
        # 단계 3: 생성 및 지원 검증
        best_answer = None
        best_score = -1
        
        for _ in range(max_iterations):
            # 후보 답변 생성
            answer = self.generator.generate(
                query, context=relevant_docs
            )
            
            # 지원 및 품질 평가
            support_score = self.critic.check_support(
                answer, relevant_docs
            )
            quality_score = self.critic.assess_quality(answer)
            
            total_score = 0.6 * support_score + 0.4 * quality_score
            
            if total_score > best_score:
                best_score = total_score
                best_answer = answer
            
            # 높은 품질 달성 시 조기 중단
            if total_score > 0.9:
                break
        
        return {
            'answer': best_answer,
            'confidence': best_score,
            'sources': relevant_docs,
            'reflections': {
                'retrieved': retrieve_decision,
                'relevance': len(relevant_docs),
                'support': support_score
            }
        }

반성 메커니즘 훈련

Self-RAG는 비판 구성 요소를 신뢰할 수 있도록 훈련해야 합니다. 일반적으로 다음과 같은 방법을 사용합니다:

감독 훈련: 관련성 판단이 표기된 데이터셋을 사용합니다.
강화 학습: 정확한 예측에 대한 보상으로 훈련합니다.
대비 학습: 지원 및 비지원 주장을 구분합니다.

반성 토큰은 다음과 같이 구현할 수 있습니다:

어휘에 특별한 토큰(예: [RETRIEVE], [RELEVANT])
모델에 별도의 분류기 헤드
외부 비판 모델(앙상블 접근)

운영 고려 사항

Self-RAG를 운영 환경에 배포할 때:

지연 시간 교환: 각 반성 단계는 추론 오버헤드를 20~40% 증가시킵니다. 철저함과 응답 시간 요구 사항 사이에서 균형을 맞추어야 합니다.

신뢰도 임계값: 사용 사례에 따라 반성 임계값을 조정해야 합니다. 법률 또는 의료 응용은 일반 챗봇보다 높은 신뢰도가 필요합니다.

모니터링: 반성 결정을 추적하여 패턴을 식별해야 합니다. 검색이 거의 필요하지 않다면 더 간단한 아키텍처를 고려해야 합니다.

GraphRAG: 지식 그래프 기반 검색

개념적 기초

GraphRAG는 벡터 유사도에서 그래프 탐색으로 검색 문제를 전환합니다. 의미적으로 유사한 텍스트 청크를 찾는 대신, GraphRAG는 관련된 엔티티와 관계의 하위 그래프를 식별합니다.

엔티티 추출: 이름된 엔티티, 개념 및 그 유형을 식별합니다. 관계 매핑: 엔티티 간의 관계(시간적, 인과적, 계층적)를 추출합니다. 그래프 구축: 엔티티를 노드, 관계를 엣지로 하는 지식 그래프를 구축합니다. 하위 그래프 검색: 쿼리가 주어졌을 때 관련된 연결된 하위 그래프를 찾습니다.

그래프 구축 파이프라인

비구조화된 텍스트에서 지식 그래프를 구축하는 것은 여러 단계를 포함합니다:

class GraphRAGBuilder:
    def __init__(self, entity_extractor, relation_extractor):
        self.entity_extractor = entity_extractor
        self.relation_extractor = relation_extractor
        self.graph = NetworkGraph()
    
    def build_graph(self, documents: List[str]):
        """문서에서 지식 그래프 구축"""
        for doc in documents:
            # 엔티티 추출
            entities = self.entity_extractor.extract(doc)
            
            # 노드 추가
            for entity in entities:
                self.graph.add_node(
                    entity['text'],
                    entity_type=entity['type'],
                    context=entity['surrounding_text']
                )
            
            # 관계 추출
            relations = self.relation_extractor.extract(
                doc, entities
            )
            
            # 엣지 추가
            for rel in relations:
                self.graph.add_edge(
                    rel['source'],
                    rel['target'],
                    relation_type=rel['type'],
                    confidence=rel['score'],
                    evidence=rel['text_span']
                )
    
    def enrich_graph(self):
        """추导된 관계 및 메타데이터 추가"""
        # 노드 중요도 계산(PageRank 등)
        self.graph.compute_centrality()
        
        # 커뮤니티/클러스터 식별
        self.graph.detect_communities()
        
        # 시간 정보가 있을 경우 시간 순서 추가
        self.graph.add_temporal_edges()

그래프를 사용한 쿼리 처리

GraphRAG 쿼리는 지식 그래프를 통해 다중 훅 추론을 수행합니다:

class GraphRAGRetriever:
    def __init__(self, graph, embedder):
        self.graph = graph
        self.embedder = embedder
    
    def retrieve_subgraph(self, query: str, 
                         max_hops: int = 2,
                         max_nodes: int = 50):
        """쿼리에 대한 관련 하위 그래프 검색"""
        
        # 쿼리의 시드 엔티티 식별
        query_entities = self.entity_extractor.extract(query)
        
        # 그래프의 일치 노드 찾기
        seed_nodes = []
        for entity in query_entities:
            matches = self.graph.find_similar_nodes(
                entity['text'],
                similarity_threshold=0.85
            )
            seed_nodes.extend(matches)
        
        # 하위 그래프 확장
        subgraph = self.graph.create_subgraph()
        visited = set()
        
        for seed in seed_nodes:
            self._expand_from_node(
                seed, 
                subgraph, 
                visited,
                current_hop=0,
                max_hops=max_hops
            )
        
        # 노드 관련성 순으로 정렬
        ranked_nodes = self._rank_subgraph_nodes(
            subgraph, query
        )
        
        # 맥락 추출 및 포맷
        context = self._format_graph_context(
            ranked_nodes[:max_nodes],
            subgraph
        )
        
        return context
    
    def _expand_from_node(self, node, subgraph, visited,
                         current_hop, max_hops):
        """하위 그래프 확장"""
        if current_hop >= max_hops or node in visited:
            return
        
        visited.add(node)
        subgraph.add_node(node)
        
        # 이웃 노드 가져오기
        neighbors = self.graph.get_neighbors(node)
        
        for neighbor, edge_data in neighbors:
            # 엣지 추가
            subgraph.add_edge(node, neighbor, edge_data)
            
            # 재귀적 확장
            self._expand_from_node(
                neighbor,
                subgraph,
                visited,
                current_hop + 1,
                max_hops
            )
    
    def _format_graph_context(self, nodes, subgraph):
        """하위 그래프를 텍스트 맥락으로 변환"""
        context_parts = []
        
        for node in nodes:
            # 노드 맥락 추가
            context_parts.append(f"엔티티: {node.text}")
            context_parts.append(f"유형: {node.entity_type}")
            
            # 관계 정보 추가
            edges = subgraph.get_edges(node)
            for edge in edges:
                context_parts.append(
                    f"- {edge.relation_type} -> {edge.target.text}"
                )
        
        return "\n".join(context_parts)

마이크로소프트의 GraphRAG 구현

마이크로소프트의 GraphRAG는 커뮤니티 요약을 생성하는 고유한 접근법을 사용합니다:

초기 그래프 구축: LLM 기반 엔티티/관계 추출을 사용하여 문서에서 그래프를 구축합니다.
커뮤니티 감지: Leiden 알고리즘 또는 유사한 알고리즘을 사용하여 커뮤니티를 감지합니다.
커뮤니티 요약 생성: LLM을 사용하여 각 커뮤니티의 요약을 생성합니다.
계층 구조: 여러 수준의 커뮤니티 추상화를 구축합니다.
쿼리 시간: 관련된 커뮤니티를 검색하고 특정 엔티티로 이동합니다.

이 접근법은 다음과 같은 경우 특히 효과적입니다:

탐색적 쿼리(“이 코퍼스의 주요 주제는 무엇인가요?”).
다중 훅 추론(“A는 B를 통해 C와 어떻게 연결되어 있나요?”).
시간 분석(“이 엔티티의 관계는 어떻게 진화했나요?”).

비교 분석

각 변형 사용 시기

LongRAG 사용 시:

문서가 강한 내부 일관성을 가질 때
LLM의 맥락 창이 대규모 입력(32K 이상)을 지원할 때
장거리 의존성을 이해해야 할 때
구조화된 문서(보고서, 논문, 책)를 다룰 때

Self-RAG 사용 시:

정확도와 신뢰성이 중요할 때
설명 가능한 검색 결정이 필요할 때
무관한 검색으로 인한 오류가 비용이 많이 들 때
쿼리 복잡성이 다양할 때(일부는 검색이 필요, 일부는 필요하지 않음)

GraphRAG 사용 시:

도메인에 풍부한 엔티티 관계가 있을 때
다중 훅 추론이 필요한 쿼리가 있을 때
시간적 또는 계층적 관계가 중요할 때
엔티티 간 연결을 이해해야 할 때

성능 지표 비교

지표	표준 RAG	LongRAG	Self-RAG	GraphRAG
인덱싱 시간	1x	0.8x	1.1x	3-5x
쿼리 지연 시간	1x	2-3x	1.4x	1.5-2x
메모리 사용량	1x	3-4x	1.2x	2-3x
정확도 (QA)	기준선	+15-25%	+20-30%	+25-40%*
해석 가능성	낮음	중간	높음	높음

*GraphRAG 개선은 도메인에 따라 크게 달라집니다.

하이브리드 접근

가장 강력한 운영 시스템은 종종 여러 기술을 결합합니다:

LongRAG + GraphRAG: 그래프 구조를 사용하여 관련 문서 클러스터를 식별하고, 조각이 아닌 전체 문서를 검색합니다.

Self-RAG + GraphRAG: 그래프 탐색 결정(어떤 경로를 따라가야 하고, 확장 중단 시점)에 반성 메커니즘을 적용합니다.

3단계 파이프라인: GraphRAG로 초기 엔티티 기반 검색 → Self-RAG로 관련성 필터링 → LongRAG으로 맥락 조립

구현 고려 사항

임베딩 모델

다양한 RAG 변형은 다른 임베딩 요구 사항을 가지고 있습니다:

LongRAG: 문서 수준 및 청크 수준에서 잘 작동하는 임베딩이 필요합니다. 긴 시퀀스에 대해 대비 학습을 통해 훈련된 모델을 고려해야 합니다.

Self-RAG: 세부적인 관련성 평가를 위해 의미적 세부 사항을 포착하는 임베딩이 이점이 있습니다.

GraphRAG: 엔티티 인식을 위한 임베딩이 필요합니다. 엔티티 연결 작업에 훈련된 모델이 더 좋습니다.

임베딩 모델 선택은 성능에 큰 영향을 미칩니다. 로컬 모델을 사용할 경우, Ollama와 같은 도구는 운영 배포에 헌신하기 전에 다양한 임베딩 모델을 실험하는 데 간단한 방법을 제공합니다.

청크링 전략 재고

고급 RAG에 대한 전통적인 고정 크기 청크링은 부족합니다:

의미적 청크링: 자연 경계(단락, 섹션, 주제 전환)에서 분할 재귀적 청크링: 부모-자식 관계를 가진 계층적 청크 생성 슬라이딩 윈도우: 경계에서 맥락을 유지하기 위해 중첩 청크 사용 구조 인식: 문서 구조(마크다운 헤더, XML 태그, 코드 블록) 존중

Python 기반 구현에 대해 LangChain 및 LlamaIndex와 같은 라이브러리가 이러한 청크링 전략에 대한 내장 지원을 제공합니다.

재정렬 통합

재정렬은 모든 RAG 변형에 대해 검색 품질을 크게 향상시킵니다. 초기 검색 후, 특화된 재정렬 모델이 쿼리-문서 상호작용 특징을 기반으로 결과를 재점수화합니다. 이는 통찰력 있는 통합 시 10~20%의 정확도 향상을 제공합니다.

운영 규모 확장

인덱싱 파이프라인:

대규모 문서 코퍼스에 대해 분산 처리(Ray, Dask) 사용
실시간 업데이트를 위한 점진적 인덱싱 구현
최적화된 벡터 데이터베이스(Pinecone, Weaviate, Qdrant)에 임베딩 저장

쿼리 최적화:

자주 검색되는 쿼리 및 결과 캐싱
쿼리 라우팅(다른 쿼리 유형에 다른 RAG 변형 사용)
서브선형 확장에 유리한 근사 최근접 이웃 검색 사용

모니터링:

검색 관련성 점수 추적
Self-RAG에서의 반성 결정 모니터링
그래프 탐색 경로 및 깊이 측정
신뢰도 점수 및 사용자 피드백 로깅

실제 응용 사례

기술 문서 검색

주요 클라우드 제공업체는 문서 검색에 GraphRAG를 구현했습니다:

엔티티: API 엔드포인트, 매개변수, 오류 코드, 서비스 이름
관계: 의존성, 버전 호환성, 마이그레이션 경로
결과: 지원 티켓 35% 감소, 해결 시간 45% 단축

법적 발견

법률 기술 회사는 Self-RAG와 LongRAG을 결합했습니다:

Self-RAG는 무관한 문서를 초기에 필터링합니다.
LongRAG는 보존된 문서에서 맥락을 유지합니다.
변호사가 검토해야 할 거짓 긍정 예시 60% 감소
중요한 맥락 보존이 71%에서 94%로 향상

연구 문헌 검토

하이브리드 접근을 사용한 학술 검색 엔진:

GraphRAG는 인용 네트워크와 연구 커뮤니티를 식별합니다.
LongRAG는 방법론 맥락을 유지하면서 전체 섹션을 검색합니다.
관련 논문 발견 40% 향상
문헌 검토 시간이 주간에서 일일로 단축

고급 주제

다중 모달 RAG

이러한 변형을 이미지, 표, 코드로 확장:

시각적 지정: 문서 내 이미지에 텍스트 엔티티를 연결
표 이해: 구조화된 데이터를 그래프 형식으로 파싱
코드 분석: 코드베이스에서 의존성 그래프를 생성

적응형 RAG

쿼리 특성에 따라 RAG 전략을 동적으로 선택:

쿼리 복잡성 분류기
문서 유형 감지기
전략 선택에 대한 비용-효과 최적화기

개인정보 보호 RAG

이러한 변형을 개인정보 보호 제약으로 구현:

데이터 실로 간의 연합 검색
임베딩에 차별적 사생활 보호
암호화된 유사도 검색

시작하기

파이썬으로 빠르게 시작하기

이러한 기술을 구현하려는 분들께는 견고한 파이썬 기초를 갖추는 것이 필수적입니다. 파이썬은 머신러닝을 위한 풍부한 생태계를 갖추고 있어, RAG 개발에 자연스러운 선택이 됩니다.

실험을 위한 간단한 시작점은 다음과 같습니다:

# 의존성 설치
# pip install sentence-transformers faiss-cpu langchain

from sentence_transformers import SentenceTransformer
import faiss
import numpy as np

# 긴 조각으로 실험하기 위한 기본 설정
model = SentenceTransformer('all-MiniLM-L6-v2')

documents = [
    # 여기에 긴 형식의 문서를 넣으세요
]

# 임베딩 생성
embeddings = model.encode(documents)

# FAISS 인덱스 생성
dimension = embeddings.shape[1]
index = faiss.IndexFlatL2(dimension)
index.add(embeddings.astype('float32'))

# 쿼리
query = "여기서 질문을 입력하세요"
query_embedding = model.encode([query])
distances, indices = index.search(
    query_embedding.astype('float32'), k=3
)

프레임워크 선택

LangChain: 빠른 프로토타이핑에 적합, 광범위한 통합 LlamaIndex: 문서 인덱싱 및 검색 최적화 Haystack: 프로덕션 준비, 강력한 파이프라인 추상화 사용자 정의: 완전한 제어 및 최적화가 필요한 경우

평가 프레임워크

프로덕션 배포 전에 엄격한 평가를 수행하세요:

검색 지표:

Precision@K, Recall@K, MRR (Mean Reciprocal Rank)
NDCG (Normalized Discounted Cumulative Gain)

생성 지표:

ROUGE, BLEU: 텍스트 유사도
BERTScore: 의미 유사도
인간 평가: 품질 평가

엔드투엔드 지표:

작업 성공률
사용자 만족도 점수
지연 시간 백분위수 (p50, p95, p99)

결론

RAG 시스템의 전망은 벡터 유사도 검색을 넘어서 매우 성숙해졌습니다. LongRAG, Self-RAG, GraphRAG는 전통적인 접근법의 특정 한계를 해결합니다:

LongRAG은 확장된 컨텍스트 창과 최소한의 조각화를 통해 컨텍스트 분할 문제를 해결합니다. 문서 일관성이 중요한 경우이고, 대규모 컨텍스트를 처리할 수 있는 컴퓨팅 자원이 있을 때 이 선택이 가장 적합합니다.

Self-RAG은 검색 시스템에 중요한 자기 인식을 추가합니다. 자신의 결정을 반영함으로써 거짓 양성 결과를 줄이고 신뢰성을 향상시킵니다. 정확도가 속도보다 더 중요한 고위험 응용 프로그램에 필수적입니다.

GraphRAG은 구조화된 지식 표현의 힘을 해방합니다. 도메인에 엔티티 간 복잡한 관계가 포함되어 있다면, 벡터 유사도가 완전히 놓치는 연결을 표면화할 수 있습니다.

RAG의 미래는 이러한 변형의 강점을 결합한 혼합 접근법을 포함할 가능성이 큽니다. 프로덕션 시스템은 GraphRAG를 사용해 관련 엔티티 클러스터를 식별하고, Self-RAG를 사용해 검색 결과를 필터링 및 검증하고, LongRAG를 사용해 LLM에 일관된 컨텍스트를 조립할 수 있습니다.

LLM이 계속 개선되고 컨텍스트 창이 확장되면서 더 복잡한 RAG 변형이 등장할 것입니다. 핵심은 특정 사용 사례 요구 사항—문서 구조, 쿼리 패턴, 정확도 요구 사항, 컴퓨팅 제약—을 이해하고 적절한 기술 또는 그 조합을 선택하는 것입니다.

도구 생태계는 급속히 성숙되고 있으며, LangChain, LlamaIndex, Haystack과 같은 프레임워크는 이러한 고급 패턴에 대한 점점 더 복잡한 지원을 제공합니다. 강력한 로컬 LLM 런타임과 임베딩 모델과 결합하면, 생산용 RAG 시스템을 실험하고 배포하는 것이 점점 더 쉬워지고 있습니다.

기초부터 시작하고, 성능을 엄격히 측정한 후, 요구 사항에 따라 아키텍처를 발전시켜 나가세요. 여기서 다룬 고급 RAG 변형은 그 발전에 대한 지도를 제공합니다.