RAG avancé : LongRAG, Self-RAG et GraphRAG expliqués
LongRAG, Self-RAG, GraphRAG - Techniques de nouvelle génération
Retrieval-Augmented Generation (RAG) a évolué bien au-delà de la simple recherche de similarité vectorielle. LongRAG, Self-RAG et GraphRAG représentent l’avant-garde de ces capacités.
Les systèmes RAG modernes doivent gérer des documents massifs, comprendre des relations d’entités complexes et bien plus encore.
Cette belle image a été générée par AI model Flux 1 dev.
L’Évolution au-delà du RAG de base
Les systèmes RAG traditionnels suivent un schéma simple : découper les documents, les encoder en vecteurs, les récupérer via la similarité du cosinus et les transmettre à un LLM. Bien que efficace pour de nombreux cas d’utilisation, cette approche rencontre des difficultés dans trois scénarios critiques :
- Dépendances à long terme : Un contexte important peut s’étendre sur des milliers de tokens à travers plusieurs morceaux
- Confiance de récupération : Le système n’a aucun moyen d’évaluer si le contenu récupéré est effectivement pertinent
- Complexité des relations : La similarité vectorielle ne peut pas capturer les connexions complexes entre les entités
Les variantes avancées de RAG abordent ces limites avec des architectures spécialisées adaptées à des défis spécifiques.
LongRAG : Conquérir le contexte étendu
Aperçu de l’architecture
LongRAG repense fondamentalement la stratégie de découpage en exploitant les LLM dotés de fenêtres de contexte étendues (32K, 100K ou même 1M de tokens). Au lieu de diviser les documents en petits morceaux de 512 tokens, LongRAG utilise une approche hiérarchique :
Embedding au niveau du document : Tout le document (ou de très grandes sections) est traité comme une seule unité. Un embedding au niveau du document capture le sens global, tout en maintenant le texte complet pour le traitement ultérieur.
Fragmentation minimale : Lorsque le découpage est nécessaire, LongRAG utilise des morceaux beaucoup plus grands (4K-8K tokens) avec un chevauchement important (20-30%). Cela préserve le flux narratif et réduit la fragmentation du contexte.
Assemblage du contexte : Au moment de la récupération, LongRAG renvoie des documents complets ou de grandes sections cohérentes plutôt que des fragments épars. Le LLM reçoit un contexte continu qui préserve les relations structurelles et sémantiques.
Stratégie d’implémentation
Voici une implémentation conceptuelle en utilisant Python et des modèles d’embedding modernes :
from typing import List, Dict
import numpy as np
class LongRAGRetriever:
def __init__(self, model, chunk_size=8000, overlap=1600):
self.model = model
self.chunk_size = chunk_size
self.overlap = overlap
self.doc_embeddings = []
self.documents = []
def create_long_chunks(self, text: str) -> List[str]:
"""Créer des morceaux grands et chevauchants"""
chunks = []
start = 0
while start < len(text):
end = start + self.chunk_size
chunk = text[start:end]
chunks.append(chunk)
start += (self.chunk_size - self.overlap)
return chunks
def index_document(self, doc: str, metadata: Dict):
"""Indexer le document avec un embedding hiérarchique"""
# Embedding du document entier
doc_embedding = self.model.embed(doc)
# Créer des morceaux grands avec chevauchement
chunks = self.create_long_chunks(doc)
chunk_embeddings = [self.model.embed(c) for c in chunks]
self.doc_embeddings.append({
'doc_id': len(self.documents),
'doc_embedding': doc_embedding,
'chunk_embeddings': chunk_embeddings,
'chunks': chunks,
'full_text': doc,
'metadata': metadata
})
self.documents.append(doc)
def retrieve(self, query: str, top_k: int = 3) -> List[Dict]:
"""Récupérer du contenu long-form"""
query_embedding = self.model.embed(query)
# Évaluer d'abord au niveau du document
doc_scores = [
np.dot(query_embedding, doc['doc_embedding'])
for doc in self.doc_embeddings
]
# Obtenir les meilleurs documents
top_doc_indices = np.argsort(doc_scores)[-top_k:][::-1]
results = []
for idx in top_doc_indices:
doc_data = self.doc_embeddings[idx]
# Pour chaque document, trouver les meilleurs morceaux
chunk_scores = [
np.dot(query_embedding, emb)
for emb in doc_data['chunk_embeddings']
]
best_chunk_idx = np.argmax(chunk_scores)
# Renvoyer un contexte étendu autour du meilleur morceau
context_chunks = self._get_extended_context(
doc_data['chunks'],
best_chunk_idx
)
results.append({
'text': ''.join(context_chunks),
'score': doc_scores[idx],
'metadata': doc_data['metadata']
})
return results
def _get_extended_context(self, chunks: List[str],
center_idx: int) -> List[str]:
"""Obtenir un contexte étendu autour du morceau pertinent"""
start = max(0, center_idx - 1)
end = min(len(chunks), center_idx + 2)
return chunks[start:end]
Cas d’utilisation et performances
LongRAG excelle dans les scénarios où le contexte compte :
- Analyse de documents juridiques : Les contrats et les mémoires juridiques ont souvent des dépendances s’étendant sur des dizaines de pages
- Récupération d’articles de recherche : Comprendre la méthodologie nécessite des sections cohérentes, pas des paragraphes isolés
- Répertoires de code : Les fonctions et les classes doivent être comprises dans leur contexte de module
Caractéristiques de performance :
- Latence : Plus élevée en raison du traitement de grands morceaux (2 à 5 fois plus lent que le RAG standard)
- Précision : Amélioration de 15 à 25 % sur les benchmarks de Q&A long-form
- Mémoire : Nécessite 3 à 4 fois plus de mémoire pour les fenêtres de contexte
Self-RAG : Récupération réfléchie
Principes fondamentaux
Self-RAG introduit une couche métacognitive aux systèmes RAG. Au lieu de récupérer et de générer de manière aveugle, le système réfléchit activement à ses propres processus à travers des tokens de réflexion spéciaux :
Token de récupération : Décide si la récupération est nécessaire pour une requête donnée Token de pertinence : Évalue si les documents récupérés sont effectivement pertinents Token de soutien : Vérifie si la réponse générée est soutenue par le contenu récupéré Token de critique : Évalue la qualité globale de la réponse générée
Composants de l’architecture
L’architecture Self-RAG se compose de trois phases entrelacées :
class SelfRAGSystem:
def __init__(self, retriever, generator, critic):
self.retriever = retriever
self.generator = generator
self.critic = critic
def generate_with_reflection(self, query: str,
max_iterations: int = 3):
"""Générer une réponse avec auto-réflexion"""
# Phase 1 : Décider si la récupération est nécessaire
retrieve_decision = self.critic.should_retrieve(query)
if not retrieve_decision:
# Génération directe sans récupération
return self.generator.generate(query)
# Phase 2 : Récupérer et évaluer la pertinence
retrieved_docs = self.retriever.retrieve(query)
relevant_docs = []
for doc in retrieved_docs:
relevance_score = self.critic.assess_relevance(
query, doc
)
if relevance_score > 0.7: # Seuil
relevant_docs.append(doc)
if not relevant_docs:
# Recours à la génération sans récupération
return self.generator.generate(query)
# Phase 3 : Générer et vérifier le soutien
best_answer = None
best_score = -1
for _ in range(max_iterations):
# Générer une réponse candidate
answer = self.generator.generate(
query, context=relevant_docs
)
# Évaluer le soutien et la qualité
support_score = self.critic.check_support(
answer, relevant_docs
)
quality_score = self.critic.assess_quality(answer)
total_score = 0.6 * support_score + 0.4 * quality_score
if total_score > best_score:
best_score = total_score
best_answer = answer
# Arrêt anticipé si une qualité élevée est atteinte
if total_score > 0.9:
break
return {
'answer': best_answer,
'confidence': best_score,
'sources': relevant_docs,
'reflections': {
'retrieved': retrieve_decision,
'relevance': len(relevant_docs),
'support': support_score
}
}
Entraînement des mécanismes de réflexion
Self-RAG nécessite l’entraînement du composant critique pour faire des évaluations fiables. Cela implique généralement :
- Finition supervisée sur des jeux de données annotés avec des jugements de pertinence
- Apprentissage par renforcement avec des récompenses pour des prédictions précises
- Apprentissage contrastif pour distinguer les affirmations soutenues des non soutenues
Les tokens de réflexion peuvent être implémentés comme :
- Des tokens spécifiques dans le vocabulaire (comme
[RETRIEVE],[RELEVANT]) - Des têtes de classificateur séparées sur le modèle
- Des modèles critiques externes (approche par ensemble)
Considérations en production
Lors du déploiement de Self-RAG dans les systèmes en production :
Compromis de latence : Chaque étape de réflexion ajoute 20 à 40 % de surcoût d’inférence. Équilibrez la rigueur avec les exigences de temps de réponse.
Seuils de confiance : Ajustez les seuils de réflexion en fonction de votre cas d’utilisation. Les applications juridiques ou médicales nécessitent une confiance plus élevée que les chatbots généraux.
Surveillance : Suivez les décisions de réflexion pour identifier des modèles. Si la récupération est rarement nécessaire, vous pourriez bénéficier d’une architecture plus simple.
GraphRAG : Récupération améliorée par le graphe de connaissances
Fondement conceptuel
GraphRAG transforme le problème de récupération de la similarité vectorielle en parcours de graphe. Au lieu de trouver des morceaux de texte sémantiquement similaires, GraphRAG identifie des sous-graphes pertinents de connexions d’entités et de relations.
Extraction d’entités : Identifier les entités nommées, les concepts et leurs types Cartographie des relations : Extraire les relations entre les entités (temporelles, causales, hiérarchiques) Construction du graphe : Construire un graphe de connaissances avec les entités comme nœuds et les relations comme arêtes Récupération de sous-graphes : Étant donné une requête, trouver les sous-graphes pertinents connectés
Pipeline de construction du graphe
La construction d’un graphe de connaissances à partir de textes non structurés implique plusieurs étapes :
class GraphRAGBuilder:
def __init__(self, entity_extractor, relation_extractor):
self.entity_extractor = entity_extractor
self.relation_extractor = relation_extractor
self.graph = NetworkGraph()
def build_graph(self, documents: List[str]):
"""Construire un graphe de connaissances à partir des documents"""
for doc in documents:
# Extraire les entités
entities = self.entity_extractor.extract(doc)
# Ajouter les entités comme nœuds
for entity in entities:
self.graph.add_node(
entity['text'],
entity_type=entity['type'],
context=entity['surrounding_text']
)
# Extraire les relations
relations = self.relation_extractor.extract(
doc, entities
)
# Ajouter les relations comme arêtes
for rel in relations:
self.graph.add_edge(
rel['source'],
rel['target'],
relation_type=rel['type'],
confidence=rel['score'],
evidence=rel['text_span']
)
def enrich_graph(self):
"""Ajouter des relations dérivées et des métadonnées"""
# Calculer l'importance des nœuds (PageRank, etc.)
self.graph.compute_centrality()
# Identifier les communautés/clusters
self.graph.detect_communities()
# Ajouter l'ordre temporel si des horodatages sont disponibles
self.graph.add_temporal_edges()
Traitement des requêtes avec des graphes
Les requêtes GraphRAG impliquent une raisonning multi-sauts à travers le graphe de connaissances :
class GraphRAGRetriever:
def __init__(self, graph, embedder):
self.graph = graph
self.embedder = embedder
def retrieve_subgraph(self, query: str,
max_hops: int = 2,
max_nodes: int = 50):
"""Récupérer un sous-graphe pertinent pour la requête"""
# Identifier les entités de départ dans la requête
query_entities = self.entity_extractor.extract(query)
# Trouver les nœuds correspondants dans le graphe
seed_nodes = []
for entity in query_entities:
matches = self.graph.find_similar_nodes(
entity['text'],
similarity_threshold=0.85
)
seed_nodes.extend(matches)
# Étendre le sous-graphe via le parcours
subgraph = self.graph.create_subgraph()
visited = set()
for seed in seed_nodes:
self._expand_from_node(
seed,
subgraph,
visited,
current_hop=0,
max_hops=max_hops
)
# Classer les nœuds par pertinence
ranked_nodes = self._rank_subgraph_nodes(
subgraph, query
)
# Extraire et formater le contexte
context = self._format_graph_context(
ranked_nodes[:max_nodes],
subgraph
)
return context
def _expand_from_node(self, node, subgraph, visited,
current_hop, max_hops):
"""Étendre récursivement le sous-graphe"""
if current_hop >= max_hops or node in visited:
return
visited.add(node)
subgraph.add_node(node)
# Obtenir les voisins
neighbors = self.graph.get_neighbors(node)
for neighbor, edge_data in neighbors:
# Ajouter l'arête au sous-graphe
subgraph.add_edge(node, neighbor, edge_data)
# Étendre récursivement
self._expand_from_node(
neighbor,
subgraph,
visited,
current_hop + 1,
max_hops
)
def _format_graph_context(self, nodes, subgraph):
"""Convertir le sous-graphe en contexte textuel"""
context_parts = []
for node in nodes:
# Ajouter le contexte de l'entité
context_parts.append(f"Entité : {node.text}")
context_parts.append(f"Type : {node.entity_type}")
# Ajouter les informations de relation
edges = subgraph.get_edges(node)
for edge in edges:
context_parts.append(
f"- {edge.relation_type} -> {edge.target.text}"
)
return "\n".join(context_parts)
Implémentation de GraphRAG chez Microsoft
L’implémentation de GraphRAG chez Microsoft suit une approche unique en générant des résumés de communautés :
- Construire un graphe initial à partir des documents en utilisant l’extraction d’entités et de relations basée sur les LLM
- Détecter les communautés en utilisant l’algorithme Leiden ou similaire
- Générer des résumés pour chaque communauté à l’aide des LLM
- Structure hiérarchique : Construire plusieurs niveaux d’abstractions de communautés
- Au moment de la requête : Récupérer les communautés pertinentes et parcourir jusqu’aux entités spécifiques
Cette approche est particulièrement efficace pour :
- Les requêtes exploratoires (“Quels sont les thèmes principaux de ce corpus ?”)
- Le raisonnement multi-sauts (“Comment A est-il connecté à C via B ?”)
- L’analyse temporelle (“Comment les relations de cette entité ont-elles évolué ?”)
Analyse comparative
Quand utiliser chaque variante
Utiliser LongRAG quand :
- Les documents ont une forte cohérence interne
- Les fenêtres de contexte de votre LLM supportent les grands inputs (32K+)
- Les réponses aux requêtes nécessitent la compréhension des dépendances à long terme
- Vous travaillez avec des documents structurés (rapports, articles, livres)
Utiliser Self-RAG quand :
- La précision et la fiabilité sont critiques
- Vous avez besoin de décisions de récupération explicables
- Les faux positifs issus de la récupération non pertinente sont coûteux
- La complexité des requêtes varie largement (certaines nécessitent la récupération, d’autres non)
Utiliser GraphRAG quand :
- Votre domaine a des relations d’entités riches
- Les requêtes impliquent un raisonnement multi-sauts
- Les relations temporelles ou hiérarchiques comptent
- Vous avez besoin de comprendre les connexions entre les entités
Comparaison des métriques de performance
| Métrique | RAG standard | LongRAG | Self-RAG | GraphRAG |
|---|---|---|---|---|
| Temps d’indexation | 1x | 0,8x | 1,1x | 3-5x |
| Latence de requête | 1x | 2-3x | 1,4x | 1,5-2x |
| Utilisation de la mémoire | 1x | 3-4x | 1,2x | 2-3x |
| Précision (QA) | baseline | +15-25% | +20-30% | +25-40%* |
| Interprétabilité | Faible | Moyenne | Élevée | Élevée |
*Les améliorations de GraphRAG dépendent fortement du domaine
Approches hybrides
Les systèmes de production les plus puissants combinent souvent plusieurs techniques :
LongRAG + GraphRAG : Utiliser la structure du graphe pour identifier des clusters de documents pertinents, puis récupérer des documents complets plutôt que des fragments
Self-RAG + GraphRAG : Appliquer les mécanismes de réflexion aux décisions de parcours de graphe (quelles chemins suivre, quand arrêter l’expansion)
Pipeline à trois étapes : Utiliser GraphRAG pour la récupération initiale basée sur les entités → Self-RAG pour le filtrage de pertinence → LongRAG pour l’assemblage du contexte
Considérations d’implémentation
Modèles d’embedding
Les différentes variantes de RAG ont des exigences d’embedding différentes :
LongRAG : Nécessite des embeddings qui fonctionnent bien à la fois au niveau du document et au niveau du morceau. Considérez des modèles entraînés avec un apprentissage contrastif sur des séquences longues.
Self-RAG : Bénéficie d’embeddings qui capturent les nuances sémantiques pour une évaluation fine de la pertinence.
GraphRAG : Requiert des embeddings sensibles aux entités. Les modèles finement ajustés sur les tâches de liens d’entités performent mieux.
Le choix du modèle d’embedding a un impact significatif sur les performances. Lorsque vous travaillez avec des modèles locaux, des outils comme Ollama offrent une manière simple d’expérimenter avec différents modèles d’embedding avant de vous engager dans un déploiement en production.
Reconsidération des stratégies de découpage
Le découpage traditionnel fixe est insuffisant pour les RAG avancés :
Découpage sémantique : Couper aux limites naturelles (paragraphes, sections, changements de sujet) Découpage récursif : Créer des morceaux hiérarchiques avec des relations parent-enfant Fenêtre glissante : Utiliser des morceaux chevauchants pour préserver le contexte aux limites Conscient de la structure : Respecter la structure du document (en-têtes markdown, balises XML, blocs de code)
Pour les implémentations en Python, des bibliothèques comme LangChain et LlamaIndex offrent un support intégré pour ces stratégies de découpage.
Intégration de la reclassification
La reclassification améliore considérablement la qualité de la récupération sur toutes les variantes de RAG. Après une récupération initiale, un modèle spécialisé de reclassification réévalue les résultats en fonction des caractéristiques d’interaction requête-document. Cela apporte une amélioration significative de précision (10 à 20 %) avec un impact minimal sur la latence lorsqu’elle est intégrée de manière réfléchie.
Échelle vers la production
Pipeline d’indexation :
- Utiliser un traitement distribué (Ray, Dask) pour de grands corpus de documents
- Implémenter un indexation incrémentale pour les mises à jour en temps réel
- Stocker les embeddings dans des bases de données vectorielles optimisées (Pinecone, Weaviate, Qdrant)
Optimisation des requêtes :
- Mettre en cache les requêtes fréquentes et leurs résultats
- Implémenter un routage des requêtes (différentes variantes de RAG pour différents types de requêtes)
- Utiliser une recherche de plus proches voisins approximative pour une échelle sous-linéaire
Surveillance :
- Suivre les scores de pertinence de la récupération
- Surveiller les décisions de réflexion dans Self-RAG
- Mesurer les chemins et les profondeurs de parcours de graphe
- Journaliser les scores de confiance et les retours utilisateurs
Applications du monde réel
Recherche de documentation technique
Un grand fournisseur de cloud a mis en œuvre GraphRAG pour sa documentation :
- Entités : Points de terminaison API, paramètres, codes d’erreur, noms de services
- Relations : Dépendances, compatibilités de version, chemins de migration
- Résultat : Réduction de 35 % des tickets de support, temps de résolution réduit de 45 %
Découverte juridique
Une entreprise de technologie juridique a combiné Self-RAG avec LongRAG :
- Self-RAG filtre les documents non pertinents dès le début
- LongRAG préserve le contexte dans les documents retenus
- Les avocats examinent 60 % moins de faux positifs
- La préservation du contexte critique est passée de 71 % à 94 %
Revue de littérature académique
Un moteur de recherche académique utilisant une approche hybride :
- GraphRAG identifie les réseaux de citations et les communautés de recherche
- LongRAG récupère des sections complètes en maintenant le contexte de la méthodologie
- Amélioration de 40 % dans la découverte de papiers pertinents
- Réduction du temps de revue de littérature de semaines à jours
Sujets avancés
RAG multimodal
Étendre ces variantes pour gérer les images, les tableaux et le code :
- Ancrage visuel : Lier les entités textuelles aux images dans les documents
- Compréhension des tableaux : Analyser les données structurées en format de graphe
- Analyse du code : Construire des graphes de dépendance à partir des bases de code
RAG adaptatif
Sélection dynamique de la stratégie RAG basée sur les caractéristiques de la requête :
- Classificateur de complexité de la requête
- Détecteur de type de document
- Optimiseur de coût-bénéfice pour la sélection de stratégie
RAG préservant la confidentialité
Implémentation de ces variantes avec des contraintes de confidentialité :
- Récupération fédérée à travers des silos de données
- Confidentialité différentielle dans les embeddings
- Recherche de similarité chiffrée
Getting Started
Quick Start with Python
Pour ceux qui souhaitent mettre en œuvre ces techniques, commencer par une solide base en Python est essentiel. L’écosystème riche de Python pour l’apprentissage automatique en fait le choix naturel pour le développement de RAG.
Voici un point de départ simple pour l’expérimentation :
# Install dependencies
# pip install sentence-transformers faiss-cpu langchain
from sentence_transformers import SentenceTransformer
import faiss
import numpy as np
# Basic setup for experimenting with long chunks
model = SentenceTransformer('all-MiniLM-L6-v2')
documents = [
# Vos documents longs ici
]
# Create embeddings
embeddings = model.encode(documents)
# Build FAISS index
dimension = embeddings.shape[1]
index = faiss.IndexFlatL2(dimension)
index.add(embeddings.astype('float32'))
# Query
query = "Votre question ici"
query_embedding = model.encode([query])
distances, indices = index.search(
query_embedding.astype('float32'), k=3
)
Framework Selection
LangChain : Idéal pour le prototypage rapide, intégrations étendues
LlamaIndex : Optimisé pour l’indexation et la récupération de documents
Haystack : Prêt pour la production, abstractions fortes des pipelines
Custom : Lorsque vous avez besoin de contrôle total et d’optimisation
Evaluation Framework
Implémentez une évaluation rigoureuse avant le déploiement en production :
Métriques de récupération :
- Précision@K, Rappel@K, MRR (Mean Reciprocal Rank)
- NDCG (Normalized Discounted Cumulative Gain)
Métriques de génération :
- ROUGE, BLEU pour la similarité textuelle
- BERTScore pour la similarité sémantique
- Évaluation humaine pour l’analyse de la qualité
Métriques de bout en bout :
- Taux de réussite des tâches
- Notes de satisfaction des utilisateurs
- Percentiles de latence (p50, p95, p99)
Conclusion
Le paysage des systèmes RAG a considérablement mûri au-delà de la simple recherche de similarité vectorielle. LongRAG, Self-RAG et GraphRAG chacun répondent à des limites spécifiques des approches traditionnelles :
LongRAG résout le problème de fragmentation du contexte en adoptant des fenêtres de contexte étendues et un minimum de découpage. C’est le choix idéal lorsque la cohérence des documents est importante et que vous avez les ressources computationnelles nécessaires pour gérer de grands contextes.
Self-RAG ajoute une conscience critique aux systèmes de récupération. En se réfléchissant sur ses propres décisions, il réduit les faux positifs et améliore la fiabilité — essentiel pour les applications à haut risque où la précision prime sur la vitesse.
GraphRAG libère le pouvoir de la représentation structurée des connaissances. Lorsque votre domaine implique des relations complexes entre les entités, la récupération basée sur les graphes peut révéler des connexions que la similarité vectorielle ignore complètement.
L’avenir du RAG probablement impliquera des approches hybrides qui combinent les forces de ces variantes. Un système de production pourrait utiliser GraphRAG pour identifier des clusters d’entités pertinents, Self-RAG pour filtrer et valider les récupérations, et LongRAG pour assembler un contexte cohérent pour le LLM.
Alors que les LLM continuent d’améliorer et que les fenêtres de contexte s’élargissent, nous verrons apparaître des variantes RAG encore plus sophistiquées. La clé est de comprendre vos besoins spécifiques — structure des documents, motifs de requêtes, exigences en termes de précision et contraintes computationnelles — et de sélectionner la technique appropriée ou la combinaison correspondante.
L’écosystème des outils évolue rapidement, avec des cadres comme LangChain, LlamaIndex et Haystack qui offrent un soutien de plus en plus sophistiqué pour ces schémas avancés. Combinés à des environnements d’exécution locaux puissants et des modèles d’embedding, il n’a jamais été plus facile d’expérimenter et de déployer des systèmes RAG de production.
Commencez par les bases, mesurez rigoureusement les performances et évoluez votre architecture selon les besoins. Les variantes avancées de RAG abordées ici offrent un plan d’évolution pour cela.
Useful links
- Python Cheatsheet
- Reranking with embedding models
- LLMs and Structured Output: Ollama, Qwen3 & Python or Go
- Cloud LLM Providers
- LLMs Comparison: Qwen3:30b vs GPT-OSS:20b
External References
- Microsoft GraphRAG: A Modular Graph-Based Retrieval-Augmented Generation System
- Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection
- LongRAG: Enhancing Retrieval-Augmented Generation with Long-context LLMs
- Retrieval-Augmented Generation for Large Language Models: A Survey
- FAISS: A Library for Efficient Similarity Search
- LangChain Documentation: Advanced RAG Techniques
- HuggingFace: Sentence Transformers for Embedding Models
- RAG Survey: A Comprehensive Analysis of Retrieval Augmented Generation