Retrieval versus Representatie in Kennissystemen
Zoeken is geen kennisstructuur
De meeste moderne kennissystemen optimaliseren de terugwinning (retrieval), en dat is begrijpelijk. Zoeken is zichtbaar, eenvoudig te demonstreren en voelt magisch wanneer het werkt. Typ een vraag, krijg een antwoord.
Maar terugwinning is slechts de helft van het probleem. Dieperliggende vraag is:
Welke vorm heeft de kennis voordat er iets wordt geprobeerd om deze terug te winnen?

Dat is representatie — de structuur achter de kennis:
- notities
- pagina’s
- schema’s
- grafieken
- entiteiten
- relaties
- samenvattingen
- taxonomieën
- bronbegrenzingen
- canonieke versies
Terugwinning vraagt:
Kan ik iets relevants vinden?
Representatie vraagt:
Is de kennis zo georganiseerd dat het zinvol is?
Dit zijn niet hetzelfde probleem. Een RAG-systeem met slechte representatie wordt een snelle interface naar een rommelig archief. Het kan fragmenten terugwinnen, maar het kan een gebroken structuur niet repareren. Het kan documenten citeren, maar het kan niet beslissen welke canoniek is. Het kan context samenstellen, maar het kan niet garanderen dat de onderliggende kennis coherent is.
Daarom zijn systemen in de stijl van LLM Wiki interessant: ze verplaatsen de inspanning van de query-tijd naar de ingangstijd (ingest time). In plaats van alleen chunks terug te winnen wanneer een gebruiker een vraag stelt, proberen ze kennis vooraf te structureren in pagina’s, concepten, samenvattingen en links. Dit maakt RAG niet overbodig — het betekent dat terugwinning en representatie verschillende lagen zijn, en goede kennissystemen beide nodig hebben.
De kernverschil
Terugwinning gaat over toegang; representatie gaat over betekenis.
| Laag | Vraag | Voorbeelden |
|---|---|---|
| Terugwinning | Hoe vind ik de juiste informatie? | zoeken, embeddings, BM25, herclassificatie (reranking), vectoropslag |
| Representatie | Hoe is kennis gestructureerd? | notities, wikis, grafieken, schema’s, ontologieën |
| Redeneren | Hoe gebruik ik de kennis? | synthese, vergelijking, afleiding, besluitvorming |
Een zwak systeem springt vaak direct naar terugwinning; een sterk systeem vraagt eerst:
- Wat zijn de kernconcepten?
- Wat is de canonieke bron?
- Welke relaties zijn belangrijk?
- Wat verandert over tijd?
- Wat moet worden teruggewonnen?
- Wat moet al gerepresenteerd zijn?
Dit is het verschil tussen zoeken over documenten en een echt kennissysteem.
Waarom terugwinning dominant werd
Terugwinning werd dominant omdat het goed aansluit bij de moderne AI-stack. Een typische RAG pipeline ziet er als volgt uit:
- Documenten laden
- Ze opsplitsen in chunks
- Embeddings genereren
- Vectoren opslaan
- Relevante chunks terugwinnen
- Optioneel herclassificeren (rerank)
- Ze in een LLM-prompt plaatsen
- Een antwoord genereren
Deze pipeline is praktisch: hij is relatief eenvoudig te bouwen, werkt met rommelige documenten, schaalt naar grote corpus, vermijdt het opnieuw trainen van modellen en geeft LLM’s toegang tot actuele informatie. Daarom werd RAG het standaardpatroon voor “AI over documenten”.
Maar er is een val:
RAG verbetert de toegang tot kennis. Het verbetert de kennis niet automatisch.
Als uw inhoud gedupliceerd, verouderd, contradictorisch, slecht opgesplitst of slecht benoemd is, zal terugwinning deze problemen naar boven halen — vaak met zelfvertrouwen.
Wat representatie betekent
Representatie is de manier waarop kennis wordt gevormd voordat terugwinning plaatsvindt. Het beantwoordt vragen zoals:
- Is deze kennis opgeslagen als documenten, notities, entiteiten of feiten?
- Zijn relaties expliciet of impliciet?
- Zijn er canonieke pagina’s?
- Zijn er samenvattingen?
- Zijn concepten gelinkt?
- Is het systeem georganiseerd op onderwerp, workflow, tijd of eigenaarschap?
- Kan een mens het onderhouden?
- Kan een machine erover redeneren?
Representatie is geen versiering — het bepaalt welke operaties mogelijk zijn.
Vormen van representatie
Documenten
Documenten zijn de meest voorkomende representatie. Voorbeelden zijn:
- artikelen
- PDF’s
- handleidingen
- rapporten
- README-bestanden
- supportpagina’s
- blogberichten
Documenten zijn eenvoudig voor mensen om te schrijven, maar ze zijn vaak moeilijk voor machines te gebruiken omdat ze feiten, narratief, context, voorbeelden, meningen, verouderde secties en herhaalde uitleg in dezelfde container mengen. Documenten zijn goede containers, maar ze zijn niet altijd goede kennisstructuren.
Notities
Notities zijn flexibeler dan documenten. Ze kunnen:
- atoom zijn
- gelinkt zijn
- privé zijn
- onaf zijn
- conceptgericht zijn
Een notitiesysteem, zoals een PKM of tweede hersenen, kan evoluerende kennis beter representeren dan een gepolijste documentenrepository. Goede notities vangen denken in ontwikkeling op; slechte notities worden een ondoorzoekbare rommellade.
Wikis
Wikis representeren kennis als onderhouden pagina’s. Een goede wiki heeft:
- stabiele pagina’s
- duidelijke onderwerpen
- interne links
- eigenaarschap
- canonieke antwoorden
- updatepatronen
Een wiki is sterker dan een losse documentdump omdat hij kennis een thuis geeft. “Implementatiechecklist” woont op één plek. “Incidentresponse” woont op één plek. “RAG-architectuur” woont op één plek. Dat is belangrijk omdat terugwinning beter werkt wanneer kennis een stabiele structuur heeft.
Kennisgrafieken
Kennisgrafieken representeren kennis als entiteiten en relaties. In plaats van alleen tekst op te slaan, modelleren ze dingen zoals:
- Persoon werkt aan Project
- Model ondersteunt ContextLength
- Pagina is afhankelijk van Concept
- Service verbindt met Database
- Tool implementeert Protocol
Grafieken zijn krachtig omdat relaties expliciet worden, wat helpt bij traversing, afhankelijkheidsanalyse, entiteitsoplossing, afstammingslijnen, redeneren en aanbevelingen. Maar grafieken zijn duur in onderhoud en ze zijn geen toverij — een slechte grafiek is slechts gestructureerde verwarring.
Schema’s en ontologieën
Schema’s definiëren verwachte structuur; ontologieën gaan verder en definiëren types, relaties en beperkingen. Ze beantwoorden:
- Welke soorten dingen bestaan?
- Welke eigenschappen hebben ze?
- Hoe kunnen ze zich verhouden?
- Welke regels zijn van toepassing?
Dit is nuttig wanneer correctheid belangrijk is, zoals in medische kennis, juridische kennis, enterprise data-catalogi, producttaxonomieën en compliance-systemen. De trade-off is rigiditeit: hoe formeler de representatie, hoe duurder het is om te evolueren.
LLM-genererde representaties
Moderne systemen gebruiken steeds vaker LLM’s om representaties te creëren. Voorbeelden zijn:
- samenvattingen
- geëxtraheerde entiteiten
- onderwerppagina’s
- conceptkaarten
- synthetische FAQs
- documentoverzichten
- cross-links
- glossariumitems
Dit is waar systemen in de stijl van LLM Wiki zitten. Ze gebruiken het model niet alleen om queries te beantwoorden, maar ook om kennis vooraf te verwerken en te structureren voordat de query plaatsvindt. RAG zegt “win relevante chunks terug op query-tijd”; LLM Wiki zegt “compileer nuttige kennisstructuren op ingangstijd”. Beide patronen kunnen in dezelfde architectuur coëxisteren.
Wat terugwinning betekent
Terugwinning is het proces van het vinden van relevante informatie. Veelvoorkomende terugwinningsmethoden zijn:
- zoekopdrachten op trefwoord
- full-text zoekopdrachten
- vectorzoekopdrachten
- hybride zoekopdrachten
- metadatafiltering
- grafiektraversing
- herclassificatie (reranking)
- query-herformulering
- agentische zoekopdrachten
Terugwinning is niet één ding — het is een gelaagde stack van complementaire methoden.
Zoeken op trefwoord
Zoeken op trefwoord komt overeen met termen en is nog steeds nuttig omdat het voorspelbaar, debugbaar, snel en goed is voor exacte termen, IDs, foutberichten, namen en code. Zijn zwakte is semantische mismatch: als de gebruiker zoekt naar “hoe herhaalde antwoorden te stoppen” maar het document zegt “presence penalty”, kan trefwoordzoektocht het beste resultaat missen.
Vectorzoektocht
Vectorzoektocht wint terug op semantische similariteit. Het is nuttig wanneer:
- de formulering verschilt
- concepten vaag zijn
- gebruikers vragen in natuurlijke taal stellen
- documenten inconsistente terminologie gebruiken
De zwakte is precisie — vectorzoektocht kan dingen terugwinnen die gerelateerd lijken maar niet feitelijk correct zijn, wat vooral riskant is in technische systemen.
Hybride zoektocht
Hybride zoektocht combineert zoekopdrachten op trefwoord en vector, wat vaak beter is dan beide afzonderlijk. Trefwoordzoektocht vangt exacte matches; vectorzoektocht vangt conceptuele matches. Voor technische kennisbases is hybride terugwinning meestal een sterke standaard.
Herclassificatie (Reranking)
[Herclassificatie]({< ref “/rag/reranking/reranking-with-embedding-models/” >} “Herclassificatie met embedding-modellen”) neemt een initiële set teruggewonnen resultaten en sorteert ze opnieuw met behulp van een sterker model. Dit verbetert de kwaliteit omdat de eerste terugwinningsstap vaak breed is. Een typisch patroon wint 50 chunks terug, herclassificeert naar de top 5 of 10 en doorgeeft alleen de beste context aan de LLM. Herclassificatie is een van de meest praktische manieren om RAG-kwaliteit te verbeteren.
Agentische terugwinning
Agentische terugwinning maakt van zoeken een proces. In plaats van één query kan een agent:
- Een initiële vraag stellen
- Zoeken
- Resultaten inspecteren
- De query herformuleren
- Opnieuw zoeken
- Bronnen vergelijken
- Een antwoord synthetiseren
Dit is dichter bij onderzoek dan bij zoeken. Het is nuttig voor complexe vragen, maar het is langzamer en moeilijker te controleren.
Terugwinning zonder representatie is fragiel
Een terugwinningsysteem kan alleen terugwinnen wat bestaat. Het kan niet betrouwbaar fixen:
- onduidelijke concepten
- gedupliceerde pagina’s
- inconsistente terminologie
- verouderde documentatie
- ontbrekend bron-eigenaarschap
- contradictorische uitspraken
- zwakke interne koppelingen
- slechte documentgrenzen
Dit is de meest voorkomende fout in RAG-projecten: teams bouwen een vectordatabase en verwachten dat het een kennissysteem wordt. Een vectordatabase is geen kennisarchitectuur — het is een toegangs laag.
Representatie zonder terugwinning is geïsoleerd
Het tegengestelde falen bestaat ook. Je kunt een prachtig gestructureerde kennisbase hebben die niemand kan vinden. Dit gebeurt met:
- overontworpen wikis
- diepe mapstructuren
- rigide taxonomieën
- slecht geïndexeerde documentatie
- private notitiesystemen zonder ontdekking
- grafieken zonder bruikbare interfaces
Representatie geeft kennis structuur; terugwinning geeft kennis bereik. Je hebt beide nodig.
De trade-off kaart
Snelheid vs coherentie
Terugwinning is snel te bouwen en representatie kost langer. Als je een prototype nodig hebt, wint terugwinning; als je op lange termijn vertrouwen nodig hebt, is representatie belangrijker.
| Prioriteit | Beter startpunt |
|---|---|
| Snel Q&A over veel docs | Terugwinning |
| Stabiele technische kennis | Representatie |
| Verkenningsonderzoek | PKM plus terugwinning |
| Enterprise assistent | Gestructureerde corpus plus RAG |
| Agent geheugen | Representatie plus selectieve terugwinning |
Een puur RAG-proTOTYPE kan snel worden gebouwd, maar een betrouwbaar kennissysteem vereist curatie.
Flexibiliteit vs consistentie
Losse documenten zijn flexibel; gestructureerde kennis is consistent. Flexibiliteit helpt wanneer:
- het domein snel verandert
- kennis onvolledig is
- gebruikers verkennen
- het systeem persoonlijk is
Consistentie helpt wanneer:
- meerdere mensen erop vertrouwen
- antwoorden vertrouwd moeten worden
- workflows er afhankelijk van zijn
- AI-systemen het consumeren
Hoe meer mensen of agents afhankelijk zijn van kennis, hoe belangrijker representatie is.
Recall vs precisie
Terugwinningsystemen optimaliseren vaak eerst recall, wat betekent dat ze alles vinden wat mogelijk relevant is. Maar goede antwoorden vereisen precisie, wat betekent dat ze het beste bewijs vinden in plaats van slechts gerelateerd bewijs. Representatie verbetert precisie door concepten en grenzen duidelijker te maken — een goed gestructureerde pagina is nauwkeuriger terug te winnen dan een willekeurige paragraaf die begraven zit in een lang document.
Kosten op ingangstijd vs kosten op query-tijd
RAG duwt werk meestal naar query-tijd. Op query-tijd doet het systeem:
- de query herschrijven
- chunks terugwinnen
- resultaten herclassificeren
- context samenstellen
- het model vragen om te redeneren over fragmenten
Systemen in de stijl van LLM Wiki duwen meer werk naar de ingangstijd. Op ingangstijd doet het systeem:
- bronnen lezen
- concepten extraheren
- samenvattingen schrijven
- pagina’s creëren
- gerelateerde ideeën linken
- structuur onderhouden
| Architectuur | Duurde stap | Voordeel |
|---|---|---|
| RAG | Query-tijd | Flexibele terugwinning |
| LLM Wiki | Ingingstijd | Vooraf samengestelde structuur |
| Kennisgrafiek | Modelleringstijd | Expliciete relaties |
| Wiki | Onderhoudstijd | Canonieke kennis |
Geen van deze is universeel beter — ze optimaliseren verschillende kosten.
Waarom LLM Wiki bestaat
LLM Wiki bestaat omdat terugwinning alleen vaak werk herhaalt. In een normaal RAG-systeem kan elke query het model dwingen om ruwe fragmenten opnieuw te interpreteren:
- Chunks over een onderwerp terugwinnen
- De LLM vragen om het concept af te leiden
- Een antwoord genereren
- De synthese vergeten
- Volgende keer herhalen
LLM Wiki zegt:
Stop met het zelfde samenvatten af te leiden. Compileer het.
In plaats van alleen ruwe documenten op te slaan, creëert het gestructureerde pagina’s die kennis samenvatten en verbinden, wat coherentie, hergebruik, token-efficiëntie, menselijke leesbaarheid en langetermijnonderhoud kan verbeteren. Maar het heeft een kosten: het systeem moet de wiki onderhouden, en als de wiki verkeerd, verouderd of gehaluceerd is, wordt de structuur gevaarlijk.
RAG-halucinaties vs slechte representatie
Mensen verwijten vaak de LLM wanneer een RAG-systeem een slecht antwoord geeft, en soms is dat correct. Maar veel failures zijn eigenlijk terugwinning- of representatiefailures.
Foutpatroon 1. Correct document, verkeerde chunk
Het antwoord bestaat, maar chunking splitst het slecht. Het model ontvangt:
- de helft van een paragraaf
- ontbrekende context
- een tabel zonder uitleg
- een definitie zonder beperkingen
De LLM vult die gaten, wat er uitziet als halucinaties, maar het diepere probleem is gebroken representatie.
Foutpatroon 2. Gerelateerde chunk, verkeerd antwoord
Vectorzoektocht wint iets terug dat semantisch vergelijkbaar is maar operationeel verkeerd. De query gaat over productie-implementatie; de teruggewonnen chunk bespreekt lokale ontwikkeling. De termen overlappen maar de betekenis verschilt, dus het model antwoordt met lokale setup-instructies voor een productievraagstuk. Dit is terugwinningsimprecisie.
Foutpatroon 3. Conflicterende bronnen
Twee documenten komen niet overeen — één oud, één nieuw. Het terugwinningsysteem retourneert beide, en de LLM mergeert ze tot een zelfverzekerd maar ongeldig antwoord. Dit is niet alleen een terugwinningsprobleem maar een representatieprobleem, omdat de kennisbase geen canonieke staat heeft.
Foutpatroon 4. Geen conceptmodel
Het systeem heeft veel documenten maar geen model van het domein. Het weet niet dat:
- “agent geheugen” verschilt van “RAG”
- “wiki” verschilt van “PKM”
- “embedding zoektocht” verschilt van “full-text zoektocht”
- “implementatie” verschilt van “hosting”
Zonder conceptuele representatie wordt terugwinning vaag matching.
Foutpatroon 5. Gegenerateerde structuur wordt valse autoriteit
LLM Wiki-systemen hebben hun eigen foutpatroon. Als een LLM een schone pagina genereert uit slechte bronnen, kan het resultaat autoritatiever lijken dan het oorspronkelijke materiaal. Dit is gevaarlijk: een gepolijste halucinaties is erger dan een rommelig bron-document. Elke gegenereerde representatie heeft nodig:
- bronlinks
- review
- updateregels
- confidentiemarkers
- eigenaarschap
Ontwerpimplicaties
Optimaliseer terugwinning wanneer de corpus groot en dynamisch is
Terugwinning moet de prioriteit zijn wanneer:
- de corpus enorm is
- documenten vaak veranderen
- gebruikers veel onvoorspelbare vragen stellen
- u brede dekking nodig heeft
- perfecte structuur onrealistisch is
Voorbeelden: supportkennisbases, enterprise documentzoektocht, onderzoeksassistenten, interne chat over veel bestanden, juridische discovery en klantenservicebots. In deze gevallen moet u investeren in sterke terugwinning:
- hybride zoektocht
- metadatafilters
- herclassificatie
- query-herformulering
- broncitatie
- evaluatiesets
Optimaliseer representatie wanneer coherentie belangrijk is
Representatie moet de prioriteit zijn wanneer:
- kennis vertrouwd moet worden
- antwoorden consistent moeten zijn
- concepten vaak worden hergebruikt
- het domein een duidelijke structuur heeft
- meerdere systemen er afhankelijk van zijn
Voorbeelden: architectuurkennis, productdocumentatie, compliance-regels, API-referenties, operationele runbooks, gecureerde onderzoekscollecties en technische blogclusters. In deze gevallen moet u investeren in:
- canonieke pagina’s
- glossariusterms
- diagrammen
- interne links
- eigenaarschap
- versiebeheer
- reviewfrequentie
Optimaliseer beide wanneer AI-systemen afhankelijk zijn van kennis
Als een AI-agent afhankelijk is van de kennis, is terugwinning alleen meestal niet genoeg. Agents hebben nodig:
- stabiele context
- duidelijke taakregels
- duurzaam geheugen
- gestructureerde referenties
- bronbegrenzingen
- updategedrag
Voor agentische systemen wordt representatie onderdeel van systeemontwerp. Een codeeragent heeft niet alleen nodig om “sommige docs” terug te winnen — het moet weten:
- projectconventies
- architectuurbeslissingen
- commandopatronen
- verboden afhankelijkheden
- testworkflow
- implementatieregels
Een deel daarvan hoort bij RAG, een deel bij geheugen en een deel bij gestructureerde projectdocumentatie.
Praktisch besliskader
Als het probleem informatie vinden is
Optimaliseer terugwinning. Voorbeelden:
- “Vind relevante pagina’s.”
- “Beantwoord vragen over documenten.”
- “Zoek door veel PDF’s.”
- “Locatie vergelijkbare supporttickets.”
Gebruik:
- full-text zoektocht
- vectorzoektocht
- hybride terugwinning
- herclassificatie
- metadatafiltering
Als het probleem kennis coherent maken is
Optimaliseer representatie. Voorbeelden:
- “Creëer een canonieke uitleg.”
- “Los gedupliceerde pagina’s op.”
- “Definieer het domeinmodel.”
- “Bouw een stabiele kennisbase.”
Gebruik:
- wikipagina’s
- conceptkaarten
- taxonomieën
- kennisgrafieken
- samenvattingen
- schema’s
Als het probleem herhaalde synthese is
Gebruik samengestelde representatie. Voorbeelden:
- “We beantwoorden dezelfde conceptuele vragen herhaaldelijk.”
- “Het systeem herhaalt constant dezelfde bronnen.”
- “We hebben een stabiele syntheselaag nodig.”
Gebruik:
- LLM Wiki
- gecureerde samenvattingen
- onderwerppagina’s
- door mensen gereviewde gegenereerde pagina’s
Als het probleem adaptieve continuïteit is
Gebruik geheugen. Voorbeelden:
- “De agent moet gebruikersvoorkeuren onthouden.”
- “De codeeragent moet projectconventies onthouden.”
- “De assistent moet werk voortzetten across sessies.”
Gebruik:
- agent geheugen
- voorkeursopslag
- episodisch geheugen
- semantisch geheugen
- projectgeheugen
Hoe dit van toepassing is op een technische blog
Een technische blog kan meer zijn dan een reeks posts — het kan een gerepresenteerd kennissysteem worden. Artikelen zijn documenten, categorieën zijn zwakke taxonomie, interne links zijn grafiek randen, pillarpagina’s zijn canonieke samenvattingen, seriepagina’s zijn gecureerde paden en zoektocht is terugwinning. Als je alleen geïsoleerde posts publiceert, moet terugwinning harder werken. Als je sterke representatie bouwt, wordt terugwinning makkelijker.
Dat betekent:
- duidelijke cluster grenzen
- stabiele slugs
- canonieke pagina’s
- vergelijkingpagina’s
- glossariumstijl uitleggen
- interne links
- gestructureerde metadata
Daarom is site-architectuur belangrijk — niet alleen voor SEO, maar omdat het kennisrepresentatie is. De Knowledge Management cluster op deze site is zelf een voorbeeld van representatie-first publicatie.
Hoe dit van toepassing is op RAG
RAG-kwaliteit hangt sterk af van representatie. Een goed gestructureerde broncorpus verbetert:
- chunk kwaliteit
- terugwinningsnauwkeurigheid
- citatiekwaliteit
- antwoordconsistentie
- evaluatiehelderheid
Voordat u een complexe RAG-pipeline bouwt, vraag:
- Zijn de bronnen actueel?
- Zijn duplicaten verwijderd?
- Zijn belangrijke concepten duidelijk benoemd?
- Zijn pagina’s correct gescopt?
- Zijn tabellen en codeblokken terug te winnen?
- Zijn canonieke antwoorden duidelijk?
- Zijn documentgrenzen zinvol?
Als het antwoord nee is, zullen betere embeddings alleen zo veel helpen.
Hoe dit van toepassing is op LLM Wiki
LLM Wiki is een representatie-first patroon. Het is nuttig wanneer:
- de corpus klein of middelgroot is
- kennis stabiel genoeg is om samen te vatten
- herhaalde synthese duur is
- mensen baat hebben bij leesbare pagina’s
- u structuur wilt voor terugwinning
Het is minder nuttig wanneer:
- de corpus massief is
- inhoud constant verandert
- versheid belangrijker is dan coherentie
- governance zwak is
- gegenereerde samenvattingen niet gereviewd kunnen worden
LLM Wiki is geen vervanging voor RAG maar een andere laag, en een sterk systeem kan beide gebruiken:
- LLM Wiki creëert gestructureerde samenvattingen.
- RAG wint terug van ruwe bronnen en wikipagina’s.
- Menselijke review houdt de representatie betrouwbaar.
Voorgestelde architectuurpatronen
Patroon 1. Terugwinning eerst
Gebruik wanneer snelheid belangrijk is.
documenten
-> chunks
-> embeddings
-> terugwinning
-> LLM antwoord
Goed voor:
- prototypes
- brede zoektocht
- grote corpus
- vroege experimenten
Zwakte: coherentie hangt af van bronkwaliteit.
Patroon 2. Representatie eerst
Gebruik wanneer vertrouwen belangrijk is.
bronnen
-> gecureerde pagina's
-> interne links
-> onderhouden kennisbase
-> zoektocht of RAG
Goed voor:
- documentatie
- technische kennis
- langetermijninhoud
- teamkennis
Zwakte: vereist onderhoud.
Patroon 3. Samengestelde kennis
Gebruik wanneer herhaalde synthese belangrijk is.
ruwe bronnen
-> LLM extractie
-> gegenereerde samenvattingen
-> onderwerppagina's
-> gereviewde kennisbase
-> terugwinning
Goed voor:
- LLM Wiki systemen
- onderzoekscollecties
- persoonlijke kennisbases
- stabiele domeinen
Zwakte: gegenereerde structuur moet worden geaudited.
Patroon 4. Hybride kennisarchitectuur
Gebruik wanneer je serieuze systemen bouwt.
ruwe documenten
-> gestructureerde kennislaag
-> zoekindex
-> terugwinning en herclassificatie
-> AI antwoord
-> feedback en onderhoud
Goed voor:
- productie RAG
- interne kennissystemen
- AI-assistenten
- technische publicatiesystemen
Zwakte: meer bewegende delen.
Evaluatievragen
Om terugwinning te evalueren, vraag:
- Vond het systeem de juiste bron?
- Rangschikte het de juiste bron hoog?
- Won het genoeg context terug?
- Vermijde het irrelevante context?
- Citeerde het antwoord de correcte bron?
Om representatie te evalueren, vraag:
- Is de kennis duidelijk gestructureerd?
- Is er een canonieke pagina?
- Zijn concepten consistent benoemd?
- Zijn relaties expliciet?
- Wordt de inhoud onderhouden?
- Kunnen zowel mensen als machines het gebruiken?
Evalueer een kennissysteem niet alleen op antwoordkwaliteit — een goed antwoord kan een slechte structuur verbergen.
De meningsvolle regel
Als uw systeem af en toe faalt, verbeter dan de terugwinning. Als het herhaaldelijk faalt in hetzelfde conceptuele gebied, verbeter dan de representatie.
Slechte terugwinning mist de juiste informatie. Slechte representatie betekent dat de juiste informatie niet echt bestaat in een bruikbare vorm.
Conclusie
Terugwinning en representatie lossen verschillende problemen op: terugwinning geeft toegang, representatie geeft structuur. RAG is krachtig omdat het externe kennis beschikbaar maakt voor LLM’s op query-tijd, maar RAG maakt kennis niet automatisch coherent, canoniek of onderhouden. Daarom zijn wikis, PKM-systemen, kennisgrafieken en systemen in de stijl van LLM Wiki nog steeds belangrijk.
De toekomst is niet terugwinning vs representatie maar gelaagde kennissystemen:
- representatie voor structuur
- terugwinning voor toegang
- geheugen voor continuïteit
- redeneren voor synthese
Als je een serieus kennissysteem bouwt, begin dan niet met de vectordatabase. Begin met de vorm van de kennis, en beslis daarna hoe het moet worden teruggewonnen.