Wat is het verschil tussen retrieval en representation?

Retrieval is de manier waarop een systeem relevante informatie vindt. Representatie is de manier waarop kennis wordt gestructureerd, zodat deze begrepen, onderhouden, verbonden en hergebruikt kan worden.

Waarom is RAG niet voldoende voor kennisbeheer?

RAG verbetert de toegang tot externe informatie, maar creëert niet automatisch structuur, lost tegenstrijdigheden op, onderhoudt canonieke kennis of bepaalt wat betrouwbaar mag worden geacht.

Wat is kennisrepresentatie in AI-systemen?

Kennisrepresentatie is de manier waarop een AI-systeem informatie organiseert met behulp van structuren zoals notities, schemas, grafen, ontologieën, documenten of gelinkte concepten.

Wanneer moet een systeem optimaliseren voor ophaling?

Een systeem moet optimaleren voor ophaling wanneer het belangrijkste probleem het snel vinden van relevante informatie is binnen een groot of vaak wisselend corpus.

Wanneer moet een systeem optimaliseren voor representatie?

Een systeem moet optimaliseren voor representatie wanneer het hoofdprobleem coherentie, langetermijnonderhoud, redeneren, gedeeld begrip of het verminderen van herhaalde interpretatie is.

Retrieval versus Representatie in Kennissystemen

Zoeken is geen kennisstructuur

Inhoud

De meeste moderne kennissystemen optimaliseren de terugwinning (retrieval), en dat is begrijpelijk. Zoeken is zichtbaar, eenvoudig te demonstreren en voelt magisch wanneer het werkt. Typ een vraag, krijg een antwoord.

Maar terugwinning is slechts de helft van het probleem. Dieperliggende vraag is:

Welke vorm heeft de kennis voordat er iets wordt geprobeerd om deze terug te winnen?

retrieval vs representatie

Dat is representatie — de structuur achter de kennis:

notities
pagina’s
schema’s
grafieken
entiteiten
relaties
samenvattingen
taxonomieën
bronbegrenzingen
canonieke versies

Terugwinning vraagt:

Kan ik iets relevants vinden?

Representatie vraagt:

Is de kennis zo georganiseerd dat het zinvol is?

Dit zijn niet hetzelfde probleem. Een RAG-systeem met slechte representatie wordt een snelle interface naar een rommelig archief. Het kan fragmenten terugwinnen, maar het kan een gebroken structuur niet repareren. Het kan documenten citeren, maar het kan niet beslissen welke canoniek is. Het kan context samenstellen, maar het kan niet garanderen dat de onderliggende kennis coherent is.

Daarom zijn systemen in de stijl van LLM Wiki interessant: ze verplaatsen de inspanning van de query-tijd naar de ingangstijd (ingest time). In plaats van alleen chunks terug te winnen wanneer een gebruiker een vraag stelt, proberen ze kennis vooraf te structureren in pagina’s, concepten, samenvattingen en links. Dit maakt RAG niet overbodig — het betekent dat terugwinning en representatie verschillende lagen zijn, en goede kennissystemen beide nodig hebben.

De kernverschil

Terugwinning gaat over toegang; representatie gaat over betekenis.

Laag	Vraag	Voorbeelden
Terugwinning	Hoe vind ik de juiste informatie?	zoeken, embeddings, BM25, herclassificatie (reranking), vectoropslag
Representatie	Hoe is kennis gestructureerd?	notities, wikis, grafieken, schema’s, ontologieën
Redeneren	Hoe gebruik ik de kennis?	synthese, vergelijking, afleiding, besluitvorming

Een zwak systeem springt vaak direct naar terugwinning; een sterk systeem vraagt eerst:

Wat zijn de kernconcepten?
Wat is de canonieke bron?
Welke relaties zijn belangrijk?
Wat verandert over tijd?
Wat moet worden teruggewonnen?
Wat moet al gerepresenteerd zijn?

Dit is het verschil tussen zoeken over documenten en een echt kennissysteem.

Waarom terugwinning dominant werd

Terugwinning werd dominant omdat het goed aansluit bij de moderne AI-stack. Een typische RAG pipeline ziet er als volgt uit:

Documenten laden
Ze opsplitsen in chunks
Embeddings genereren
Vectoren opslaan
Relevante chunks terugwinnen
Optioneel herclassificeren (rerank)
Ze in een LLM-prompt plaatsen
Een antwoord genereren

Deze pipeline is praktisch: hij is relatief eenvoudig te bouwen, werkt met rommelige documenten, schaalt naar grote corpus, vermijdt het opnieuw trainen van modellen en geeft LLM’s toegang tot actuele informatie. Daarom werd RAG het standaardpatroon voor “AI over documenten”.

Maar er is een val:

RAG verbetert de toegang tot kennis. Het verbetert de kennis niet automatisch.

Als uw inhoud gedupliceerd, verouderd, contradictorisch, slecht opgesplitst of slecht benoemd is, zal terugwinning deze problemen naar boven halen — vaak met zelfvertrouwen.

Wat representatie betekent

Representatie is de manier waarop kennis wordt gevormd voordat terugwinning plaatsvindt. Het beantwoordt vragen zoals:

Is deze kennis opgeslagen als documenten, notities, entiteiten of feiten?
Zijn relaties expliciet of impliciet?
Zijn er canonieke pagina’s?
Zijn er samenvattingen?
Zijn concepten gelinkt?
Is het systeem georganiseerd op onderwerp, workflow, tijd of eigenaarschap?
Kan een mens het onderhouden?
Kan een machine erover redeneren?

Representatie is geen versiering — het bepaalt welke operaties mogelijk zijn.

Vormen van representatie

Documenten

Documenten zijn de meest voorkomende representatie. Voorbeelden zijn:

artikelen
PDF’s
handleidingen
rapporten
README-bestanden
supportpagina’s
blogberichten

Documenten zijn eenvoudig voor mensen om te schrijven, maar ze zijn vaak moeilijk voor machines te gebruiken omdat ze feiten, narratief, context, voorbeelden, meningen, verouderde secties en herhaalde uitleg in dezelfde container mengen. Documenten zijn goede containers, maar ze zijn niet altijd goede kennisstructuren.

Notities

Notities zijn flexibeler dan documenten. Ze kunnen:

atoom zijn
gelinkt zijn
privé zijn
onaf zijn
conceptgericht zijn

Een notitiesysteem, zoals een PKM of tweede hersenen, kan evoluerende kennis beter representeren dan een gepolijste documentenrepository. Goede notities vangen denken in ontwikkeling op; slechte notities worden een ondoorzoekbare rommellade.

Wikis

Wikis representeren kennis als onderhouden pagina’s. Een goede wiki heeft:

stabiele pagina’s
duidelijke onderwerpen
interne links
eigenaarschap
canonieke antwoorden
updatepatronen

Een wiki is sterker dan een losse documentdump omdat hij kennis een thuis geeft. “Implementatiechecklist” woont op één plek. “Incidentresponse” woont op één plek. “RAG-architectuur” woont op één plek. Dat is belangrijk omdat terugwinning beter werkt wanneer kennis een stabiele structuur heeft.

Kennisgrafieken

Kennisgrafieken representeren kennis als entiteiten en relaties. In plaats van alleen tekst op te slaan, modelleren ze dingen zoals:

Persoon werkt aan Project
Model ondersteunt ContextLength
Pagina is afhankelijk van Concept
Service verbindt met Database
Tool implementeert Protocol

Grafieken zijn krachtig omdat relaties expliciet worden, wat helpt bij traversing, afhankelijkheidsanalyse, entiteitsoplossing, afstammingslijnen, redeneren en aanbevelingen. Maar grafieken zijn duur in onderhoud en ze zijn geen toverij — een slechte grafiek is slechts gestructureerde verwarring.

Schema’s en ontologieën

Schema’s definiëren verwachte structuur; ontologieën gaan verder en definiëren types, relaties en beperkingen. Ze beantwoorden:

Welke soorten dingen bestaan?
Welke eigenschappen hebben ze?
Hoe kunnen ze zich verhouden?
Welke regels zijn van toepassing?

Dit is nuttig wanneer correctheid belangrijk is, zoals in medische kennis, juridische kennis, enterprise data-catalogi, producttaxonomieën en compliance-systemen. De trade-off is rigiditeit: hoe formeler de representatie, hoe duurder het is om te evolueren.

LLM-genererde representaties

Moderne systemen gebruiken steeds vaker LLM’s om representaties te creëren. Voorbeelden zijn:

samenvattingen
geëxtraheerde entiteiten
onderwerppagina’s
conceptkaarten
synthetische FAQs
documentoverzichten
cross-links
glossariumitems

Dit is waar systemen in de stijl van LLM Wiki zitten. Ze gebruiken het model niet alleen om queries te beantwoorden, maar ook om kennis vooraf te verwerken en te structureren voordat de query plaatsvindt. RAG zegt “win relevante chunks terug op query-tijd”; LLM Wiki zegt “compileer nuttige kennisstructuren op ingangstijd”. Beide patronen kunnen in dezelfde architectuur coëxisteren.

Wat terugwinning betekent

Terugwinning is het proces van het vinden van relevante informatie. Veelvoorkomende terugwinningsmethoden zijn:

zoekopdrachten op trefwoord
full-text zoekopdrachten
vectorzoekopdrachten
hybride zoekopdrachten
metadatafiltering
grafiektraversing
herclassificatie (reranking)
query-herformulering
agentische zoekopdrachten

Terugwinning is niet één ding — het is een gelaagde stack van complementaire methoden.

Zoeken op trefwoord

Zoeken op trefwoord komt overeen met termen en is nog steeds nuttig omdat het voorspelbaar, debugbaar, snel en goed is voor exacte termen, IDs, foutberichten, namen en code. Zijn zwakte is semantische mismatch: als de gebruiker zoekt naar “hoe herhaalde antwoorden te stoppen” maar het document zegt “presence penalty”, kan trefwoordzoektocht het beste resultaat missen.

Vectorzoektocht

Vectorzoektocht wint terug op semantische similariteit. Het is nuttig wanneer:

de formulering verschilt
concepten vaag zijn
gebruikers vragen in natuurlijke taal stellen
documenten inconsistente terminologie gebruiken

De zwakte is precisie — vectorzoektocht kan dingen terugwinnen die gerelateerd lijken maar niet feitelijk correct zijn, wat vooral riskant is in technische systemen.

Hybride zoektocht

Hybride zoektocht combineert zoekopdrachten op trefwoord en vector, wat vaak beter is dan beide afzonderlijk. Trefwoordzoektocht vangt exacte matches; vectorzoektocht vangt conceptuele matches. Voor technische kennisbases is hybride terugwinning meestal een sterke standaard.

Herclassificatie (Reranking)

[Herclassificatie]({< ref “/rag/reranking/reranking-with-embedding-models/” >} “Herclassificatie met embedding-modellen”) neemt een initiële set teruggewonnen resultaten en sorteert ze opnieuw met behulp van een sterker model. Dit verbetert de kwaliteit omdat de eerste terugwinningsstap vaak breed is. Een typisch patroon wint 50 chunks terug, herclassificeert naar de top 5 of 10 en doorgeeft alleen de beste context aan de LLM. Herclassificatie is een van de meest praktische manieren om RAG-kwaliteit te verbeteren.

Agentische terugwinning

Agentische terugwinning maakt van zoeken een proces. In plaats van één query kan een agent:

Een initiële vraag stellen
Zoeken
Resultaten inspecteren
De query herformuleren
Opnieuw zoeken
Bronnen vergelijken
Een antwoord synthetiseren

Dit is dichter bij onderzoek dan bij zoeken. Het is nuttig voor complexe vragen, maar het is langzamer en moeilijker te controleren.

Terugwinning zonder representatie is fragiel

Een terugwinningsysteem kan alleen terugwinnen wat bestaat. Het kan niet betrouwbaar fixen:

onduidelijke concepten
gedupliceerde pagina’s
inconsistente terminologie
verouderde documentatie
ontbrekend bron-eigenaarschap
contradictorische uitspraken
zwakke interne koppelingen
slechte documentgrenzen

Dit is de meest voorkomende fout in RAG-projecten: teams bouwen een vectordatabase en verwachten dat het een kennissysteem wordt. Een vectordatabase is geen kennisarchitectuur — het is een toegangs laag.

Representatie zonder terugwinning is geïsoleerd

Het tegengestelde falen bestaat ook. Je kunt een prachtig gestructureerde kennisbase hebben die niemand kan vinden. Dit gebeurt met:

overontworpen wikis
diepe mapstructuren
rigide taxonomieën
slecht geïndexeerde documentatie
private notitiesystemen zonder ontdekking
grafieken zonder bruikbare interfaces

Representatie geeft kennis structuur; terugwinning geeft kennis bereik. Je hebt beide nodig.

De trade-off kaart

Snelheid vs coherentie

Terugwinning is snel te bouwen en representatie kost langer. Als je een prototype nodig hebt, wint terugwinning; als je op lange termijn vertrouwen nodig hebt, is representatie belangrijker.

Prioriteit	Beter startpunt
Snel Q&A over veel docs	Terugwinning
Stabiele technische kennis	Representatie
Verkenningsonderzoek	PKM plus terugwinning
Enterprise assistent	Gestructureerde corpus plus RAG
Agent geheugen	Representatie plus selectieve terugwinning

Een puur RAG-proTOTYPE kan snel worden gebouwd, maar een betrouwbaar kennissysteem vereist curatie.

Flexibiliteit vs consistentie

Losse documenten zijn flexibel; gestructureerde kennis is consistent. Flexibiliteit helpt wanneer:

het domein snel verandert
kennis onvolledig is
gebruikers verkennen
het systeem persoonlijk is

Consistentie helpt wanneer:

meerdere mensen erop vertrouwen
antwoorden vertrouwd moeten worden
workflows er afhankelijk van zijn
AI-systemen het consumeren

Hoe meer mensen of agents afhankelijk zijn van kennis, hoe belangrijker representatie is.

Recall vs precisie

Terugwinningsystemen optimaliseren vaak eerst recall, wat betekent dat ze alles vinden wat mogelijk relevant is. Maar goede antwoorden vereisen precisie, wat betekent dat ze het beste bewijs vinden in plaats van slechts gerelateerd bewijs. Representatie verbetert precisie door concepten en grenzen duidelijker te maken — een goed gestructureerde pagina is nauwkeuriger terug te winnen dan een willekeurige paragraaf die begraven zit in een lang document.

Kosten op ingangstijd vs kosten op query-tijd

RAG duwt werk meestal naar query-tijd. Op query-tijd doet het systeem:

de query herschrijven
chunks terugwinnen
resultaten herclassificeren
context samenstellen
het model vragen om te redeneren over fragmenten

Systemen in de stijl van LLM Wiki duwen meer werk naar de ingangstijd. Op ingangstijd doet het systeem:

bronnen lezen
concepten extraheren
samenvattingen schrijven
pagina’s creëren
gerelateerde ideeën linken
structuur onderhouden

Architectuur	Duurde stap	Voordeel
RAG	Query-tijd	Flexibele terugwinning
LLM Wiki	Ingingstijd	Vooraf samengestelde structuur
Kennisgrafiek	Modelleringstijd	Expliciete relaties
Wiki	Onderhoudstijd	Canonieke kennis

Geen van deze is universeel beter — ze optimaliseren verschillende kosten.

Waarom LLM Wiki bestaat

LLM Wiki bestaat omdat terugwinning alleen vaak werk herhaalt. In een normaal RAG-systeem kan elke query het model dwingen om ruwe fragmenten opnieuw te interpreteren:

Chunks over een onderwerp terugwinnen
De LLM vragen om het concept af te leiden
Een antwoord genereren
De synthese vergeten
Volgende keer herhalen

LLM Wiki zegt:

Stop met het zelfde samenvatten af te leiden. Compileer het.

In plaats van alleen ruwe documenten op te slaan, creëert het gestructureerde pagina’s die kennis samenvatten en verbinden, wat coherentie, hergebruik, token-efficiëntie, menselijke leesbaarheid en langetermijnonderhoud kan verbeteren. Maar het heeft een kosten: het systeem moet de wiki onderhouden, en als de wiki verkeerd, verouderd of gehaluceerd is, wordt de structuur gevaarlijk.

RAG-halucinaties vs slechte representatie

Mensen verwijten vaak de LLM wanneer een RAG-systeem een slecht antwoord geeft, en soms is dat correct. Maar veel failures zijn eigenlijk terugwinning- of representatiefailures.

Foutpatroon 1. Correct document, verkeerde chunk

Het antwoord bestaat, maar chunking splitst het slecht. Het model ontvangt:

de helft van een paragraaf
ontbrekende context
een tabel zonder uitleg
een definitie zonder beperkingen

De LLM vult die gaten, wat er uitziet als halucinaties, maar het diepere probleem is gebroken representatie.

Foutpatroon 2. Gerelateerde chunk, verkeerd antwoord

Vectorzoektocht wint iets terug dat semantisch vergelijkbaar is maar operationeel verkeerd. De query gaat over productie-implementatie; de teruggewonnen chunk bespreekt lokale ontwikkeling. De termen overlappen maar de betekenis verschilt, dus het model antwoordt met lokale setup-instructies voor een productievraagstuk. Dit is terugwinningsimprecisie.

Foutpatroon 3. Conflicterende bronnen

Twee documenten komen niet overeen — één oud, één nieuw. Het terugwinningsysteem retourneert beide, en de LLM mergeert ze tot een zelfverzekerd maar ongeldig antwoord. Dit is niet alleen een terugwinningsprobleem maar een representatieprobleem, omdat de kennisbase geen canonieke staat heeft.

Foutpatroon 4. Geen conceptmodel

Het systeem heeft veel documenten maar geen model van het domein. Het weet niet dat:

“agent geheugen” verschilt van “RAG”
“wiki” verschilt van “PKM”
“embedding zoektocht” verschilt van “full-text zoektocht”
“implementatie” verschilt van “hosting”

Zonder conceptuele representatie wordt terugwinning vaag matching.

Foutpatroon 5. Gegenerateerde structuur wordt valse autoriteit

LLM Wiki-systemen hebben hun eigen foutpatroon. Als een LLM een schone pagina genereert uit slechte bronnen, kan het resultaat autoritatiever lijken dan het oorspronkelijke materiaal. Dit is gevaarlijk: een gepolijste halucinaties is erger dan een rommelig bron-document. Elke gegenereerde representatie heeft nodig:

bronlinks
review
updateregels
confidentiemarkers
eigenaarschap

Ontwerpimplicaties

Optimaliseer terugwinning wanneer de corpus groot en dynamisch is

Terugwinning moet de prioriteit zijn wanneer:

de corpus enorm is
documenten vaak veranderen
gebruikers veel onvoorspelbare vragen stellen
u brede dekking nodig heeft
perfecte structuur onrealistisch is

Voorbeelden: supportkennisbases, enterprise documentzoektocht, onderzoeksassistenten, interne chat over veel bestanden, juridische discovery en klantenservicebots. In deze gevallen moet u investeren in sterke terugwinning:

hybride zoektocht
metadatafilters
herclassificatie
query-herformulering
broncitatie
evaluatiesets

Optimaliseer representatie wanneer coherentie belangrijk is

Representatie moet de prioriteit zijn wanneer:

kennis vertrouwd moet worden
antwoorden consistent moeten zijn
concepten vaak worden hergebruikt
het domein een duidelijke structuur heeft
meerdere systemen er afhankelijk van zijn

Voorbeelden: architectuurkennis, productdocumentatie, compliance-regels, API-referenties, operationele runbooks, gecureerde onderzoekscollecties en technische blogclusters. In deze gevallen moet u investeren in:

canonieke pagina’s
glossariusterms
diagrammen
interne links
eigenaarschap
versiebeheer
reviewfrequentie

Optimaliseer beide wanneer AI-systemen afhankelijk zijn van kennis

Als een AI-agent afhankelijk is van de kennis, is terugwinning alleen meestal niet genoeg. Agents hebben nodig:

stabiele context
duidelijke taakregels
duurzaam geheugen
gestructureerde referenties
bronbegrenzingen
updategedrag

Voor agentische systemen wordt representatie onderdeel van systeemontwerp. Een codeeragent heeft niet alleen nodig om “sommige docs” terug te winnen — het moet weten:

projectconventies
architectuurbeslissingen
commandopatronen
verboden afhankelijkheden
testworkflow
implementatieregels

Een deel daarvan hoort bij RAG, een deel bij geheugen en een deel bij gestructureerde projectdocumentatie.

Praktisch besliskader

Als het probleem informatie vinden is

Optimaliseer terugwinning. Voorbeelden:

“Vind relevante pagina’s.”
“Beantwoord vragen over documenten.”
“Zoek door veel PDF’s.”
“Locatie vergelijkbare supporttickets.”

Gebruik:

full-text zoektocht
vectorzoektocht
hybride terugwinning
herclassificatie
metadatafiltering

Als het probleem kennis coherent maken is

Optimaliseer representatie. Voorbeelden:

“Creëer een canonieke uitleg.”
“Los gedupliceerde pagina’s op.”
“Definieer het domeinmodel.”
“Bouw een stabiele kennisbase.”

Gebruik:

wikipagina’s
conceptkaarten
taxonomieën
kennisgrafieken
samenvattingen
schema’s

Als het probleem herhaalde synthese is

Gebruik samengestelde representatie. Voorbeelden:

“We beantwoorden dezelfde conceptuele vragen herhaaldelijk.”
“Het systeem herhaalt constant dezelfde bronnen.”
“We hebben een stabiele syntheselaag nodig.”

Gebruik:

LLM Wiki
gecureerde samenvattingen
onderwerppagina’s
door mensen gereviewde gegenereerde pagina’s

Als het probleem adaptieve continuïteit is

Gebruik geheugen. Voorbeelden:

“De agent moet gebruikersvoorkeuren onthouden.”
“De codeeragent moet projectconventies onthouden.”
“De assistent moet werk voortzetten across sessies.”

Gebruik:

agent geheugen
voorkeursopslag
episodisch geheugen
semantisch geheugen
projectgeheugen

Hoe dit van toepassing is op een technische blog

Een technische blog kan meer zijn dan een reeks posts — het kan een gerepresenteerd kennissysteem worden. Artikelen zijn documenten, categorieën zijn zwakke taxonomie, interne links zijn grafiek randen, pillarpagina’s zijn canonieke samenvattingen, seriepagina’s zijn gecureerde paden en zoektocht is terugwinning. Als je alleen geïsoleerde posts publiceert, moet terugwinning harder werken. Als je sterke representatie bouwt, wordt terugwinning makkelijker.

Dat betekent:

duidelijke cluster grenzen
stabiele slugs
canonieke pagina’s
vergelijkingpagina’s
glossariumstijl uitleggen
interne links
gestructureerde metadata

Daarom is site-architectuur belangrijk — niet alleen voor SEO, maar omdat het kennisrepresentatie is. De Knowledge Management cluster op deze site is zelf een voorbeeld van representatie-first publicatie.

Hoe dit van toepassing is op RAG

RAG-kwaliteit hangt sterk af van representatie. Een goed gestructureerde broncorpus verbetert:

chunk kwaliteit
terugwinningsnauwkeurigheid
citatiekwaliteit
antwoordconsistentie
evaluatiehelderheid

Voordat u een complexe RAG-pipeline bouwt, vraag:

Zijn de bronnen actueel?
Zijn duplicaten verwijderd?
Zijn belangrijke concepten duidelijk benoemd?
Zijn pagina’s correct gescopt?
Zijn tabellen en codeblokken terug te winnen?
Zijn canonieke antwoorden duidelijk?
Zijn documentgrenzen zinvol?

Als het antwoord nee is, zullen betere embeddings alleen zo veel helpen.

Hoe dit van toepassing is op LLM Wiki

LLM Wiki is een representatie-first patroon. Het is nuttig wanneer:

de corpus klein of middelgroot is
kennis stabiel genoeg is om samen te vatten
herhaalde synthese duur is
mensen baat hebben bij leesbare pagina’s
u structuur wilt voor terugwinning

Het is minder nuttig wanneer:

de corpus massief is
inhoud constant verandert
versheid belangrijker is dan coherentie
governance zwak is
gegenereerde samenvattingen niet gereviewd kunnen worden

LLM Wiki is geen vervanging voor RAG maar een andere laag, en een sterk systeem kan beide gebruiken:

LLM Wiki creëert gestructureerde samenvattingen.
RAG wint terug van ruwe bronnen en wikipagina’s.
Menselijke review houdt de representatie betrouwbaar.

Voorgestelde architectuurpatronen

Patroon 1. Terugwinning eerst

Gebruik wanneer snelheid belangrijk is.

documenten
  -> chunks
  -> embeddings
  -> terugwinning
  -> LLM antwoord

Goed voor:

prototypes
brede zoektocht
grote corpus
vroege experimenten

Zwakte: coherentie hangt af van bronkwaliteit.

Patroon 2. Representatie eerst

Gebruik wanneer vertrouwen belangrijk is.

bronnen
  -> gecureerde pagina's
  -> interne links
  -> onderhouden kennisbase
  -> zoektocht of RAG

Goed voor:

documentatie
technische kennis
langetermijninhoud
teamkennis

Zwakte: vereist onderhoud.

Patroon 3. Samengestelde kennis

Gebruik wanneer herhaalde synthese belangrijk is.

ruwe bronnen
  -> LLM extractie
  -> gegenereerde samenvattingen
  -> onderwerppagina's
  -> gereviewde kennisbase
  -> terugwinning

Goed voor:

LLM Wiki systemen
onderzoekscollecties
persoonlijke kennisbases
stabiele domeinen

Zwakte: gegenereerde structuur moet worden geaudited.

Patroon 4. Hybride kennisarchitectuur

Gebruik wanneer je serieuze systemen bouwt.

ruwe documenten
  -> gestructureerde kennislaag
  -> zoekindex
  -> terugwinning en herclassificatie
  -> AI antwoord
  -> feedback en onderhoud

Goed voor:

productie RAG
interne kennissystemen
AI-assistenten
technische publicatiesystemen

Zwakte: meer bewegende delen.

Evaluatievragen

Om terugwinning te evalueren, vraag:

Vond het systeem de juiste bron?
Rangschikte het de juiste bron hoog?
Won het genoeg context terug?
Vermijde het irrelevante context?
Citeerde het antwoord de correcte bron?

Om representatie te evalueren, vraag:

Is de kennis duidelijk gestructureerd?
Is er een canonieke pagina?
Zijn concepten consistent benoemd?
Zijn relaties expliciet?
Wordt de inhoud onderhouden?
Kunnen zowel mensen als machines het gebruiken?

Evalueer een kennissysteem niet alleen op antwoordkwaliteit — een goed antwoord kan een slechte structuur verbergen.

De meningsvolle regel

Als uw systeem af en toe faalt, verbeter dan de terugwinning. Als het herhaaldelijk faalt in hetzelfde conceptuele gebied, verbeter dan de representatie.

Slechte terugwinning mist de juiste informatie. Slechte representatie betekent dat de juiste informatie niet echt bestaat in een bruikbare vorm.

Conclusie

Terugwinning en representatie lossen verschillende problemen op: terugwinning geeft toegang, representatie geeft structuur. RAG is krachtig omdat het externe kennis beschikbaar maakt voor LLM’s op query-tijd, maar RAG maakt kennis niet automatisch coherent, canoniek of onderhouden. Daarom zijn wikis, PKM-systemen, kennisgrafieken en systemen in de stijl van LLM Wiki nog steeds belangrijk.

De toekomst is niet terugwinning vs representatie maar gelaagde kennissystemen:

representatie voor structuur
terugwinning voor toegang
geheugen voor continuïteit
redeneren voor synthese

Als je een serieus kennissysteem bouwt, begin dan niet met de vectordatabase. Begin met de vorm van de kennis, en beslis daarna hoe het moet worden teruggewonnen.

De kernverschil

Waarom terugwinning dominant werd

Wat representatie betekent

Vormen van representatie

Documenten

Notities

Wikis

Kennisgrafieken

Schema’s en ontologieën

LLM-genererde representaties

Wat terugwinning betekent

Zoeken op trefwoord

Vectorzoektocht

Hybride zoektocht

Herclassificatie (Reranking)

Agentische terugwinning

Terugwinning zonder representatie is fragiel

Representatie zonder terugwinning is geïsoleerd

De trade-off kaart

Snelheid vs coherentie

Flexibiliteit vs consistentie

Recall vs precisie

Kosten op ingangstijd vs kosten op query-tijd

Waarom LLM Wiki bestaat

RAG-halucinaties vs slechte representatie

Foutpatroon 1. Correct document, verkeerde chunk

Foutpatroon 2. Gerelateerde chunk, verkeerd antwoord

Foutpatroon 3. Conflicterende bronnen

Foutpatroon 4. Geen conceptmodel

Foutpatroon 5. Gegenerateerde structuur wordt valse autoriteit

Ontwerpimplicaties

Optimaliseer terugwinning wanneer de corpus groot en dynamisch is

Optimaliseer representatie wanneer coherentie belangrijk is

Optimaliseer beide wanneer AI-systemen afhankelijk zijn van kennis

Praktisch besliskader

Als het probleem informatie vinden is

Als het probleem kennis coherent maken is

Als het probleem herhaalde synthese is

Als het probleem adaptieve continuïteit is

Hoe dit van toepassing is op een technische blog

Hoe dit van toepassing is op RAG

Hoe dit van toepassing is op LLM Wiki

Voorgestelde architectuurpatronen

Patroon 1. Terugwinning eerst

Patroon 2. Representatie eerst

Patroon 3. Samengestelde kennis

Patroon 4. Hybride kennisarchitectuur

Evaluatievragen

De meningsvolle regel

Conclusie

Bronnen en verder lezen

Abonneren