AI - Page 4 - Rost Glukhov | Personlig webbplats och teknisk blogg

Docker Model Runner: Guide för inställning av kontextstorlek

Konfigurera kontextstorlek i Docker Model Runner är mer komplex än det borde vara.

FLUX.1-Kontext-dev: Bildförstärknings AI-modell

Black Forest Labs har släppt FLUX.1-Kontext-dev, en avancerad bild-till-bild AI-modell som förstärker befintliga bilder med hjälp av textinstruktioner.

Lägg till stöd för NVIDIA GPU i Docker Model Runner

Docker Model Runner är Docks officiella verktyg för att köra AI-modeller lokalt, men aktivera NVidia GPU-acceleration i Docker Model Runner kräver specifik konfiguration.

Minska LLM-kostnader: Strategier för tokenoptimering

Tokenoptimering är den kritiska färdigheten som skiljer kostnadseffektiva LLM-applikationer från budgetdrainande experiment.

Immich är en revolutionerande open-source, självhostad lösning för hantering av foton och videoklipp som ger dig full kontroll över dina minnen. Med funktioner som konkurrerar med Google Photos - inklusive AI-drivet ansiktsigenkänning, smart sökning och automatisk mobilbackup - allt medan dina data förblir privata och säkra på din egen server.

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Ollama-prestandajämförelse

Jag hittade några intressanta prestandatest av GPT-OSS 120b som kör på Ollama över tre olika plattformar: NVIDIA DGX Spark, Mac Studio, och RTX 4080. GPT-OSS 120b-modellen från Ollama-biblioteket väger 65 GB, vilket innebär att den inte passar in i den 16 GB VRAM som finns på en RTX 4080 (eller den nyare RTX 5080).

Bygg MCP-servrar i Python: Guide för webbsökning och skrapning

Model Context Protocol (MCP) revolutionerar hur AI-assistenter interagerar med externa datorkällor och verktyg. I den här guiden kommer vi att utforska hur man bygger MCP servrar i Python, med exempel som fokuserar på webbsökning och skrapning.

Docker Model Runner Cheatsheet: Kommandon & Exempel

Docker Model Runner (DMR) är Docks officiella lösning för att köra AI-modeller lokalt, introducerad i april 2025. Den här cheatsheten ger en snabb referens för alla viktiga kommandon, konfigurationer och bästa praxis.

Docker Model Runner vs Ollama (2026): Vilken är bäst för lokala LLMs?

Att köra stora språkmodeller (LLMs) lokalt har blivit alltmer populärt för skydd av integritet, kostnadsstyrning och möjlighet att använda modeller offline. Landskapet förändrades betydligt i april 2025 när Docker introducerade Docker Model Runner (DMR), sin officiella lösning för distribution av AI-modeller.

Uppsvunget av LLM-ASIC: Varför är inferenshårdvara viktig

Framtiden för AI är inte bara om smartare modeller – den handlar om smartare kisel.

Specialiserad hårdvara för LLM-inferens driver en revolution som liknar Bitcoin-minningens övergång till ASICs.

DGX Spark jämfört med Mac Studio: En prisjämförelse av NVIDIAs personliga AI-superdator

NVIDIA DGX Spark är en realitet, till salu 15 oktober 2025, och riktar sig mot CUDA-utvecklare som behöver lokal LLM-arbete med en integrerad NVIDIA AI-stack. US MSRP $3 999; UK/DE/JP-pris är högre på grund av moms och kanal. AUD/KRW-priser är ännu inte allmänt postade.

Ollama Go-klienter: SDK-jämförelse och Qwen3/GPT-OSS-exempel

Den här guiden ger en omfattande översikt över tillgängliga Go SDK:er för Ollama och jämför deras funktionssätt.

Här är en jämförelse mellan Qwen3:30b och GPT-OSS:20b fokuserande på instruktionssäljning och prestandaparametrar, specifikationer och hastighet.

Ollama GPT-OSS Strukturerade utgångsproblem

Ollama’s GPT-OSS modeller har återkommande problem med att hantera strukturerad utdata, särskilt när de används med ramverk som LangChain, OpenAI SDK, vllm och andra.

Begränsa LLMs med strukturerad utdata: Ollama, Qwen3 & Python eller Go

Stora språkmodeller (LLMs) är kraftfulla, men i produktion vill vi sällan ha fritt formulerade stycken. Istället vill vi ha förutsägbart data: attribut, fakta eller strukturerade objekt som du kan mata in i en app. Det är LLM Strukturerad Utdata.

Minnesallokering och modellschemaläggning i Ollama nya versionen - v0.12.1

Här jämför jag hur mycket VRAM den nya versionen av Ollama allokerar för modellen hur mycket VRAM den nya versionen av Ollama allokerar för modellen med den tidigare versionen av Ollama. Den nya versionen är sämre.

AI

Docker Model Runner: Guide för inställning av kontextstorlek

FLUX.1-Kontext-dev: Bildförstärknings AI-modell

Lägg till stöd för NVIDIA GPU i Docker Model Runner

Minska LLM-kostnader: Strategier för tokenoptimering

Självhosting av Immich: Privat fotomoln

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Ollama-prestandajämförelse

Bygg MCP-servrar i Python: Guide för webbsökning och skrapning

Docker Model Runner Cheatsheet: Kommandon & Exempel

Docker Model Runner vs Ollama (2026): Vilken är bäst för lokala LLMs?

Uppsvunget av LLM-ASIC: Varför är inferenshårdvara viktig

DGX Spark jämfört med Mac Studio: En prisjämförelse av NVIDIAs personliga AI-superdator

Ollama Go-klienter: SDK-jämförelse och Qwen3/GPT-OSS-exempel

Jämförelse: Qwen3:30b vs GPT-OSS:20b

Ollama GPT-OSS Strukturerade utgångsproblem

Begränsa LLMs med strukturerad utdata: Ollama, Qwen3 & Python eller Go

Minnesallokering och modellschemaläggning i Ollama nya versionen - v0.12.1