LLM - Page 3 - Rost Glukhov | Persoonlijke website en technische blog

OpenClaw-productieconfiguratiepatronen met plugins en skills

OpenClaw ziet er in demonstraties eenvoudig uit. In productieomgevingen wordt het een systeem.

Claude, OpenClaw en het einde van vaste prijsmodellen voor agents

De stille achterdeur die een golf van experimenten met agents mogelijk maakte, is nu gesloten.

Snelle start met Vane (Perplexica 2.0), Ollama en llama.cpp

Vane is een van de meest pragmatische opties binnen het domein van “AI-zoekmachines met bronvermelding”: een zelfgehoste antwoorden-engine die live web-ophaal met lokale of cloud-LLM’s combineert, waarbij de volledige stack onder uw controle blijft.

Installatie en configuratie van Claude Code voor Ollama en llama.cpp, prijs

Claude Code is geen autocomplete met betere marketing. Het is een agentische codeer-tool: het leest je codebase, bewerkt bestanden, voert commando’s uit en integreert met je ontwikkeltools.

Hermes AI-assistent: installeren, instellen, workflow en probleemoplossing

Hermes Agent is een zelfgehoste, model-onafhankelijke AI-assistent die lokaal op een machine of een goedkope VPS draait, werkt via terminal- en berichtinterfaces en door de tijd heen verbetert door herhaalde taken om te zetten in herbruikbare vaardigheden.

TGI - Text Generation Inference - Installeren, configureren en oplossen van problemen

Text Generation Inference (TGI) heeft een zeer specifieke energie. Het is niet de nieuwste speler op de inference-straat, maar het is wel degene die al heeft geleerd hoe productie faalt en

LLM-benchmarks met 16 GB VRAM met behulp van llama.cpp (snelheid en context)

Hier vergelijk ik de snelheid van verschillende LLM’s die op een GPU met 16 GB VRAM draaien, en kies ik de beste optie voor zelfhosting.

RTX 5090 in Australië: Prijzen, voorraad en realiteit in maart 2026

Australië heeft voorraad RTX 5090. Amper. En als je er eentje vindt, betaal je een premie die los staat van de realiteit.

Op afstand toegang tot Ollama via Tailscale of WireGuard, zonder openbare poorten.

Ollama is het meest tevreden wanneer het wordt behandeld als een lokale daemon: de CLI en uw apps communiceren met een loopback HTTP API, en de rest van het netwerk komt er nooit achter dat het bestaat.

Ollama in Docker Compose met GPU en persistente modelopslag

Ollama werkt uitstekend op bare metal. Het wordt nog interessanter wanneer je het als een service behandelt: een stabiel eindpunt, vastgezet versies, persistente opslag en een GPU die ofwel beschikbaar is of niet.

Ollama achter een reverse proxy met Caddy of Nginx voor HTTPS-streaming

Ollama achter een reverse proxy draaien is de eenvoudigste manier om HTTPS, optionele toegangscontrole en voorspelbaar streamgedrag te krijgen.

Tekst-embeddings voor RAG en zoekfuncties - Python, Ollama, OpenAI-compatibele API's

Als u werkt aan generatie versterkt met ophalen (RAG), leidt dit gedeelte u in eenvoudige taal door tekst-embeddings: wat ze zijn, hoe ze passen binnen zoeken en ophalen, en hoe u twee veelvoorkomende lokale opstellingen in Python kunt aanroepen via Ollama of een OpenAI-compatibele HTTP-API (zoals veel op llama.cpp gebaseerde servers exposen).

SGLang QuickStart: installeer, configureer en serveer LLM's via de OpenAI API

SGLang is een high-performance framework voor het uitvoeren van inference bij grote taalmodellen en multimodale modellen, ontworpen om lage latentie en hoge doorvoer te leveren, variërend van een enkele GPU tot gedistribueerde clusters.

Korte handleiding voor de llama.swap-modelwisselaar voor lokaal openai-compatibele LLM's

Binnenkort balanceren vLLM, llama.cpp en meer—elk stack op zijn eigen poort. Alles downstream wil nog steeds één /v1 basis-URL; anders blijf je met poorten, profielen en eenmalige scripts shuffelen. llama-swap is de /v1 proxy voor die stacks.

AI-systemen: zelfgehoste assistenten, RAG en lokale infrastructuur

De meeste lokale AI-opstellingen beginnen met een model en een runtime.

Oh My Opencode Beoordeling: Eerlijke Resultaten, Factureringsrisico's en Wanneer het de Loon waard is

Oh My Opencode belooft een “virtueel AI-ontwikkelteam” — Sisyphus die specialisten coördineert, taken die parallel worden uitgevoerd en het magische ultrawork-sleutelwoord dat alles activeert.