Verlaag LLM-kosten: Tokenoptimalisatiestrategieën
Verlaag LLM-kosten met 80% door slimme tokenoptimalisatie
Tokenoptimalisatie is de kritieke vaardigheid die het verschil maakt tussen kostenefficiënte LLM-toepassingen en kostbare experimenten.
Verlaag LLM-kosten met 80% door slimme tokenoptimalisatie
Tokenoptimalisatie is de kritieke vaardigheid die het verschil maakt tussen kostenefficiënte LLM-toepassingen en kostbare experimenten.
GPT-OSS 120b benchmarks op drie AI-platforms
Ik vond enkele interessante prestatietests van GPT-OSS 120b die draaien op Ollama over drie verschillende platforms: NVIDIA DGX Spark, Mac Studio en RTX 4080. De GPT-OSS 120b model uit de Ollama bibliotheek weegt 65 GB, wat betekent dat het niet past in de 16 GB VRAM van een RTX 4080 (of de nieuwere RTX 5080).
Maak MCP-servers voor AI-assistenten met Python-voorbeelden
De Model Context Protocol (MCP) is revolutionair voor de manier waarop AI-assistenten met externe gegevensbronnen en tools interacteren. In deze gids bespreken we hoe je MCP-servers in Python kunt bouwen, met voorbeelden gericht op webzoekfuncties en web scraping.
Python voor het converteren van HTML naar nette, LLM-klare Markdown
HTML naar Markdown converteren is een fundamentele taak in moderne ontwikkelingsworkflows, vooral wanneer je webinhoud voor Large Language Models (LLMs), documentatiesystemen of statische sitegeneratoren zoals Hugo voorbereidt.
Snelle verwijzing naar Docker Model Runner-opdrachten
Docker Model Runner (DMR) is de officiële oplossing van Docker voor het lokaal uitvoeren van AI-modellen, geïntroduceerd in april 2025. Deze cheatsheet biedt een snelle verwijzing naar alle essentiële opdrachten, configuraties en best practices.
Vergelijk Docker Model Runner en Ollama voor lokale LLM
Het lokaal uitvoeren van grote taalmodellen (LLMs) is steeds populairder geworden vanwege privacy, kostcontrole en offline functionaliteit. Het landschap veranderde aanzienlijk in april 2025 toen Docker Docker Model Runner (DMR) introduceerde, hun officiële oplossing voor AI-modellering.
Specialistische chips maken AI-inferentie sneller en goedkoper.
De toekomst van AI is niet alleen over slimme modellen - het gaat om slimme silicium.
Specialistische hardware voor LLM-inferentie trekt een revolutie aan die vergelijkbaar is met de overgang van Bitcoin-mining naar ASICs.
Beschikbaarheid, werkelijke retailprijzen in zes landen en vergelijking met de Mac Studio.
NVIDIA DGX Spark is real, op de markt beschikbaar 15 oktober 2025, en gericht op CUDA-ontwikkelaars die lokale LLM werkzaamheden willen uitvoeren met een geïntegreerde NVIDIA AI stack. US MSRP $3.999; UK/DE/JP retail is hoger vanwege btw en distributie. AUD/KRW openbare stickerprijzen zijn nog niet algemeen gepubliceerd.
Vergelijking van snelheid, parameters en prestaties van deze twee modellen
Hier is een vergelijking tussen Qwen3:30b en GPT-OSS:20b
met aandacht voor instructievolgzaamheid en prestatieparameters, specificaties en snelheid:
+ Specifieke Voorbeelden met Denkende LLMs
In dit bericht verkennen we twee manieren om uw Python-toepassing te verbinden met Ollama: 1. Via de HTTP REST API; 2. Via de officiële Ollama Python-bibliotheek.
Niet erg aangenaam.
Ollama’s GPT-OSS modellen hebben herhalende problemen bij het verwerken van gestructureerde uitvoer, vooral wanneer ze worden gebruikt met frameworks zoals LangChain, OpenAI SDK, vllm en andere.
Zichtbaar verschillende APIs vereisen een speciale aanpak.
Hier is een zij-aan-zij vergelijking van de ondersteuning voor gestructureerde uitvoer (het verkrijgen van betrouwbare JSON) bij populaire LLM-aanbieders, plus minimale Python-voorbeelden
Een paar manieren om gestructureerde uitvoer te krijgen van Ollama
Large Language Models (LLMs) zijn krachtig, maar in productie willen we zelden vrije tekst. In plaats daarvan willen we voorspelbare data: kenmerken, feiten of gestructureerde objecten die je kunt voeden in een app. Dat is LLM Structured Output.
Mijn eigen test van ollama model scheduling ```
Hier vergelijk ik hoeveel VRAM de nieuwe versie van Ollama toewijst aan het model hier met de vorige Ollama-versie. De nieuwe versie is erger.
Mijn visie op de huidige staat van Ollama-ontwikkeling
Ollama is snel geworden tot een van de populairste tools voor het lokaal uitvoeren van LLMs. Zijn eenvoudige CLI en gestroomlijnde modelbeheer hebben het tot de favoriete optie gemaakt voor ontwikkelaars die willen werken met AI-modellen buiten de cloud. Maar net als bij veel veelbelovende platforms zijn er al tekenen van Enshittification: