LLM

Docker Model Runner Cheatsheet: Opdrachten & Voorbeelden

Docker Model Runner (DMR) is de officiële oplossing van Docker voor het lokaal uitvoeren van AI-modellen, geïntroduceerd in april 2025. Deze cheatsheet biedt een snelle verwijzing naar alle essentiële opdrachten, configuraties en best practices.

Docker Model Runner vs Ollama: welk product kiezen?

Het lokaal uitvoeren van grote taalmodellen (LLMs) is steeds populairder geworden vanwege privacy, kostcontrole en offline functionaliteit. Het landschap veranderde aanzienlijk in april 2025 toen Docker Docker Model Runner (DMR) introduceerde, hun officiële oplossing voor AI-modellering.

De opkomst van LLM-ASICs: waarom het hardware voor inferentie belangrijk is

De toekomst van AI is niet alleen over slimme modellen - het gaat om slimme silicium.

Specialistische hardware voor LLM-inferentie trekt een revolutie aan die vergelijkbaar is met de overgang van Bitcoin-mining naar ASICs.

DGX Spark vs. Mac Studio: Prijscheck van NVIDIA's persoonlijke AI-supercomputer

NVIDIA DGX Spark is real, op de markt beschikbaar 15 oktober 2025, en gericht op CUDA-ontwikkelaars die lokale LLM werkzaamheden willen uitvoeren met een geïntegreerde NVIDIA AI stack. US MSRP $3.999; UK/DE/JP retail is hoger vanwege btw en distributie. AUD/KRW openbare stickerprijzen zijn nog niet algemeen gepubliceerd.

Hier is een vergelijking tussen Qwen3:30b en GPT-OSS:20b
met aandacht voor instructievolgzaamheid en prestatieparameters, specificaties en snelheid:

Integrare Ollama met Python: Voorbeelden van REST API en Python-client

In dit bericht verkennen we twee manieren om uw Python-toepassing te verbinden met Ollama: 1. Via de HTTP REST API; 2. Via de officiële Ollama Python-bibliotheek.

Ollama GPT-OSS Structured Outputproblemen

Ollama’s GPT-OSS modellen hebben herhalende problemen bij het verwerken van gestructureerde uitvoer, vooral wanneer ze worden gebruikt met frameworks zoals LangChain, OpenAI SDK, vllm en andere.

Gestructureerde vergelijking van uitvoer over populaire LLM-aanbieders - OpenAI, Gemini, Anthropic, Mistral en AWS Bedrock

Hier is een zij-aan-zij vergelijking van de ondersteuning voor gestructureerde uitvoer (het verkrijgen van betrouwbare JSON) bij populaire LLM-aanbieders, plus minimale Python-voorbeelden

Beperken van LLMs met gestructureerde uitvoer: Ollama, Qwen3 & Python of Go

Large Language Models (LLMs) zijn krachtig, maar in productie willen we zelden vrije tekst. In plaats daarvan willen we voorspelbare data: kenmerken, feiten of gestructureerde objecten die je kunt voeden in een app. Dat is LLM Structured Output.

Geheugentoewijzing model planning in Ollama nieuwe versie - v0.12.1

Hier vergelijk ik hoeveel VRAM de nieuwe versie van Ollama toewijst aan het model hier met de vorige Ollama-versie. De nieuwe versie is erger.

Ollama Enshittification - De vroege tekenen

Ollama is snel geworden tot een van de populairste tools voor het lokaal uitvoeren van LLMs. Zijn eenvoudige CLI en gestroomlijnde modelbeheer hebben het tot de favoriete optie gemaakt voor ontwikkelaars die willen werken met AI-modellen buiten de cloud. Maar net als bij veel veelbelovende platforms zijn er al tekenen van Enshittification:

Locally geïnstalleerde Ollama stelt u in staat om grote taalmodellen op uw eigen computer te draaien, maar het gebruik ervan via de opdrachtnaam is niet gebruikersvriendelijk. Hier zijn verschillende open-source projecten die ChatGPT-stijl interfaces bieden die verbinding maken met een lokale Ollama.

NVIDIA DGX Spark - nieuwe kleine AI-supercomputer

Nvidia is op het punt om NVIDIA DGX Spark te lanceren - een kleine AI-supercomputer op Blackwell-architectuur met 128+GB geïntegreerde RAM en 1 PFLOPS AI-prestaties. Mooi apparaat om LLMs uit te voeren.

Model Context Protocol (MCP), en aantekeningen over het implementeren van een MCP-server in Go

Hier hebben we een beschrijving van het Model Context Protocol (MCP), korte aantekeningen over hoe je een MCP-server in Go kunt implementeren, inclusief berichtstructuur en protocolespecificaties.

Documenten herschikken met Ollama en Qwen3 Reranker model - in Go

Aangezien standaard Ollama geen directe rerank API heeft, zal je herordenen met Qwen3 Reranker in GO moeten implementeren door embeddings te genereren voor query-documentparen en deze te scoren.

Vergelijking van de kwaliteit van Hugo-paginatranslatie - LLMs op Ollama

In deze test ben ik aan het vergelijken hoe verschillende LLMs die op Ollama zijn gehost Hugo-pagina’s vertalen van Engels naar Duits. Drie pagina’s die ik heb getest, waren over verschillende onderwerpen, hadden wat mooie markdown met enige structuur: koppen, lijsten, tabellen, links, enzovoort.

Docker Model Runner Cheatsheet: Opdrachten & Voorbeelden

Docker Model Runner vs Ollama: welk product kiezen?

De opkomst van LLM-ASICs: waarom het hardware voor inferentie belangrijk is

DGX Spark vs. Mac Studio: Prijscheck van NVIDIA's persoonlijke AI-supercomputer

Vergelijking: Qwen3:30b vs GPT-OSS:20b

Integrare Ollama met Python: Voorbeelden van REST API en Python-client

Ollama GPT-OSS Structured Outputproblemen

Gestructureerde vergelijking van uitvoer over populaire LLM-aanbieders - OpenAI, Gemini, Anthropic, Mistral en AWS Bedrock

Beperken van LLMs met gestructureerde uitvoer: Ollama, Qwen3 & Python of Go

Geheugentoewijzing model planning in Ollama nieuwe versie - v0.12.1

Ollama Enshittification - De vroege tekenen

Chat-UI's voor lokale Ollama-instanties

NVIDIA DGX Spark - nieuwe kleine AI-supercomputer

Model Context Protocol (MCP), en aantekeningen over het implementeren van een MCP-server in Go

Documenten herschikken met Ollama en Qwen3 Reranker model - in Go

Vergelijking van de kwaliteit van Hugo-paginatranslatie - LLMs op Ollama