LLM-architectuur: systeemontwerp voor productie-AI
Het uitvoeren van een model is een infrastructuurprobleem. Waarde halen uit een model is een architectuurprobleem.
De infrastructuurlaag — runtimes, hardware, API-eindpunten — bepaalt wat mogelijk is. De architectuurlaag bepaalt wat er daadwerkelijk gebeurt met een verzoek: welk model het afhandelt, hoeveel het kost, wat het valideert en hoe fouten worden opgevangen.
De meeste systemen beginnen met één model en helemaal geen architectuur. Dat is correct voor het maken van prototypes. In productieomgevingen wordt het een last.
LLM-architectuur omvat de ontwerpsbeslissingen die “een model dat ik kan aanroepen” transformeren tot “een systeem waarop ik kan vertrouwen”.

Waar LLM-architectuur in de stack past
LLM-architectuur bevindt zich in het midden van een model met drie lagen:
| Laag | Wat het omvat | Gerelateerd gebied |
|---|---|---|
| Modellen | Runtimes, serving, GPU-configuratie | LLM-hosting · LLM-prestaties |
| Architectuur | Routing, kosten, guardrails, orkestratie | U bent hier |
| Toepassingen | AI-assistents, RAG-pijplijnen, agents | AI-systemen · RAG |
De architectuurlaag wordt vaak in het begin overgeslagen. Het wordt essentieel wanneer u meer dan één model heeft, meer dan één taaktype of meer dan één gebruiker. Elk architectuurpatroon in deze cluster bestaat omdat “één model voor alles” niet meer werkte.
Clusterkaart
De vijf onderwerpen in deze cluster bouwen voort op elkaar. Lees in deze volgorde voor de meest logische route:
- U bent hier — deze pijler: wat LLM-architectuur is, hoe de onderdelen samenpassen
- Prompts — Effectieve prompts schrijven voor LLMs — de basis: het vormgeven van wat het model ontvangt
- Routing — Modelleroutingsstrategieën — de dispatcher: welk model handelt wat af
- Kosten — Kostenoptimalisatie voor LLM-systemen — tokenbudgettering, caching, lokale versus API-economie
- Veiligheid — LLM-guardrails in de praktijk — inputvalidatie, outputfiltering, compliance
- Orkestratie — Ontwerp van multi-modelsystemen — sequentiële, parallelle, hiërarchische en ensemblepatronen
Als u tijd heeft voor slechts één onderwerp, begin dan met routing. Het is het beslissingspunt waar architectuur begint.
Prompt Engineering
Prompt engineering is de laag die het dichtst bij het model ligt. Voor routing, voor caching, voor guardrails — daar is de prompt. Wat u naar het model stuurt, bepaalt wat u terugkrijgt.
De praktische technieken die ertoe doen:
- Duidelijkheid en structuur — duidelijke instructies presteren beter dan slimme formuleringen
- Specifieke voorbeelden — few-shot-voorbeelden verankeren het modelgedrag
- Roltoewijzing — rolgebaseerde prompts scherpstellen op toon en beperkingen
- Verschillende benaderingen — verschillende formaten laten zien waartoe het model reageert
- Contextbeheer — wat u opneemt, bepaalt wat het model gewicht geeft
Prompt engineering is geen eenmalige taak. Het is een continue kalibratie tussen uw taakeisen en het gedrag van het model.
Dieper duiken:
- Effectieve prompts schrijven voor LLMs — praktische technieken voor taalmodelprestaties
Modellerouting
Een routingslaag beslist welk model welk verzoek afhandelt. Zonder deze gaat elk verzoek naar hetzelfde model — vaak te groot voor simpele taken, te klein voor complexe taken.
Vier routingsstrategieën dekken de meeste productiesituaties:
| Strategie | Optimaliseer voor | Beste wanneer |
|---|---|---|
| Op capaciteit gebaseerd | Taakkwaliteit | Werklasten met gemengde complexiteit |
| Kostenbewust | Tokenverbruik | Systemen met beperkte budgetten |
| Latencybewust | Responstijd | Interactieve tools en realtime-chat |
| Hybride | Alle drie | Productiesystemen met echte beperkingen |
Een fallback-keten vangt fouten op: rangschik modellen van best naar meest betrouwbaar, eindigend met een lokaal model dat niet rate-limited kan worden of afgesloten door een API-uitval.
Dieper duiken:
- Modelleroutingsstrategieën: Lokaal versus API, Kostenbewust, Latencybewust — op capaciteit, kosten en latency gebaseerde routing met Python-code
Kostenoptimalisatie
LLM-kosten schalen lineair met gebruik. De strategieën die de rekening daadwerkelijk verlagen:
Tokenbudgettering stelt limieten per sessie, per taak of adaptief. Adaptieve budgetten volgen het werkelijke gebruik en strakken de toewijzingen in de loop van de tijd aan.
Lokale inferentie verandert de kostenstructuur volledig. Na amortisatie van de hardware lopen lokale modellen tegen elektriciteitskosten. Een GPU met matig gebruik betaalt zichzelf binnen enkele maanden terug.
Caching is de meest onderschatte optimalisatie. Exact-match caching vangt herhaalde prompts op. Semantische caching vangt prompts op die hetzelfde betekenen. Voor systemen met veel verkeer elimineert semantische caching een groot deel van de API-aanroepen voordat ze plaatsvinden.
Fallback-ketens verlagen de gemiddelde kosten per verzoek: geef de voorkeur aan dure modellen wanneer het budget het toelaat, val terug op goedkopere of lokale modellen naarmate de sessie vordert.
Dieper duiken:
- Kostenoptimalisatie voor LLM-systemen: Tokenbudgettering, Fallback-modellen, Caching — echte hardwarecijfers, break-even-tabellen en werkende Python-patronen
Guardrails
LLM’s zijn per ongedefinieerd onvoorspelbaar. Guardrails beperken wat erin gaat en wat eruit komt — zonder de modelcapaciteit te verminderen.
Drie guardrail-lagen zijn in de praktijk van belang:
Inputvalidatie stopt problemen voordat ze het model bereiken. Prompt-sanitisatie vangt injectatiepogingen op. Lengtebeperkingen voorkomen tokenverspilling. Contentfilters blokkeren beleidsovertredingen voordat inferentie iets kost.
Outputfiltering vangt problemen op na generatie. Structuurvalidatie zorgt voor verwachte response-vormen. Contentcontroles blokkeren schadelijke outputs. Factcheck (voor kritieke domeinen) valideert claims tegen een kennisbank.
Veiligheidsmechanismen beschermen het systeem op de lange termijn: rate limiting voorkomt misbruik, tokenbudgetten stellen een maximum voor kosten per verzoek in, contextvensterbeheer voorkomt overflow en datalekken tussen turns.
Voeg voor compliance-intensieve systemen (GDPR, HIPAA, SOC 2) auditlogboekregistratie toe met gestructureerde, alleen-toevoegbare entries en datenresidentiecontroles.
Dieper duiken:
- LLM-guardrails in de praktijk: Inputvalidatie, Outputfiltering, Veiligheid — praktische guardrailpatronen en compliance-opmerkingen
Ontwerp van multi-modelsystemen
Wanneer een enkel model niet genoeg is, is de architectuurvraag: hoe orkestreer je meerdere modellen zonder complexiteit te creëren die meer kost dan het bespaart?
Vijf patronen dekken het spectrum:
| Patroon | Latency | Kosten | Kwaliteit | Gebruik wanneer |
|---|---|---|---|---|
| Enkel model | Laagst | Laagst | Variabel | Prototyping, uniforme werklasten |
| Sequentieel (Pijplijn) | Hoog | Midden | Hoog | Meestapsworkflows met specialisatie |
| Parallel (Fan-Out) | Laag | Hoog | Hoog | Onafhankelijke taken, A/B-testen |
| Hiërarchisch (Planner-Executor) | Hoog | Hoog | Hoogst | Complexe redenering met gespecialiseerde uitvoering |
| Ensemble | Midden | Hoogst | Hoogst | Kritieke beslissingen die consensus vereisen |
De vuistregel: begin met het eenvoudigste patroon dat uw daadwerkelijke beperkingen aankan. De meeste productiesystemen bereiken pas parallel of hiërarchisch wanneer alleen op capaciteit gebaseerde routing niet meer toereikend is.
Dieper duiken:
- Ontwerp van multi-modelsystemen: Wanneer welk model gebruiken en waarom — alle vijf patronen met werkende Python-code en afwegingstabellen
Architectuurbeslisframework
Gebruik dit als snelle triage voor wat toe te voegen en wanneer:
| Probleem | Oplossing | Wanneer toe te voegen |
|---|---|---|
| Rekening is te hoog | Kostenbewuste routing, caching, lokale inferentie | Wanneer API-kosten een echte budgetpost worden |
| Latency is te hoog | Latencybewuste routing, kleinere modellen | Wanneer gebruikers traagheid opmerken |
| Kwaliteit is inconsistent | Op capaciteit gebaseerde routing, fallback-keten | Wanneer simpele taken dure modellen krijgen of complexe taken goedkope |
| Gebruikers misbruiken het systeem | Inputvalidatie, rate limiting | Wanneer u toegang opent buiten een vertrouwde team |
| Responsen zijn onveilig of buiten het beleid | Outputfiltering, contentguardrails | Wanneer u algemene gebruikers bedient |
| Eén model handelt alles af | Multi-modeldesign | Wanneer werklasten genoeg divergeren om de complexiteit te rechtvaardigen |
| Prompts werken niet | Prompt engineering-iteratie | Altijd — prompts hebben afstemming nodig naarmate taken evolueren |
Bouw architectuur van onder naar boven. Prompt engineering is altijd in scope. Voeg routing toe wanneer de kosten/kwaliteitsafwegingen echt worden. Voeg guardrails toe wanneer u externe gebruikers bedient. Voeg multi-modelorkestratie als laatste toe.
Hoe LLM-architectuur gerelateerd is aan andere onderwerpen
LLM-architectuur bevindt zich op het snijpunt van verschillende gerelateerde clusters:
Infrastructuur (onder deze laag):
- LLM-hosting in 2026: Lokaal, zelfgehost en cloudinfrastructuur vergeleken — runtimes (Ollama, llama.cpp, vLLM), hardware en serving-beslissingen. Architectuurpatronen zijn afhankelijk van de beschikbare infrastructuur. Kostenbewuste routing heeft alleen zin als u zowel lokale als API-modellen draait.
- LLM-prestaties in 2026: Benchmarks, bottlenecks en optimalisatie — latencycijfers, VRAM-limieten, doorvoermetingen. Dit zijn de empirische inputs voor routing- en modelselectiebeslissingen.
Toepassingslagen (boven deze laag):
- AI-systemen: Zelfgehoste assistents, RAG en lokale infrastructuur — de systemen die routing-, guardrail- en orkestratiebeslissingen consumeren. Multi-modelarchitectuur is een voorwaarde voor productie-AI-assistents.
- Retrieval-Augmented Generation (RAG) Tutorial — RAG is zelf een architectuurpatroon: een retrieval-pijplijn die context aanvoedt naar een LLM. De routing-, kosten- en guardrailpatronen uit deze cluster zijn ook van toepassing binnen RAG-pijplijnen.
Operationele laag:
- Observability: Monitoring, Metrics, Prometheus en Grafana Guide — productie-LLM-architectuur heeft observability nodig. Kostentracking, latencymonitoring en guardrailviolatiemetrics vereisen allemaal instrumentatie op de architectuurlaag, niet alleen op de infrastructuurlaag.