Minska LLM-kostnader: Strategier för tokenoptimering
Minska LLM-kostnader med 80% genom smart tokenoptimering
Tokenoptimering är den kritiska färdigheten som skiljer kostnadseffektiva LLM-applikationer från budgetdrainande experiment.
Minska LLM-kostnader med 80% genom smart tokenoptimering
Tokenoptimering är den kritiska färdigheten som skiljer kostnadseffektiva LLM-applikationer från budgetdrainande experiment.
GPT-OSS 120b-benchmarks på tre AI-plattformar
Jag grävde fram några intressanta prestandatester av GPT-OSS 120b som körs på Ollama över tre olika plattformar: NVIDIA DGX Spark, Mac Studio och RTX 4080. GPT-OSS 120b-modellen från Ollama-biblioteket väger 65GB, vilket innebär att den inte passar i de 16GB VRAM som finns i en RTX 4080 (eller den nyare RTX 5080).
Bygg MCP-server för AI-assistenter med Python-exempel
Model Context Protocol (MCP) revolutionerar hur AI-assistenter interagerar med externa datorkällor och verktyg. I den här guiden kommer vi att utforska hur man bygger MCP servrar i Python, med exempel som fokuserar på webbsökning och skrapning.
Python för att konvertera HTML till ren, LLM-klart Markdown
Översättning av Hugo-sidan från engelska till svenska:
Konvertera HTML till Markdown är en grundläggande uppgift i moderna utvecklingsflöden, särskilt när man förbereder webbinnehåll för Large Language Models (LLMs), dokumentationssystem eller statiska sidgenererare som Hugo.
Snabbreferens för Docker Model Runner-kommandon
Docker Model Runner (DMR) är Docks officiella lösning för att köra AI-modeller lokalt, introducerad i april 2025. Den här snabbreferensen ger en översikt över alla viktiga kommandon, konfigurationer och bästa praxis.
Jämför Docker Model Runner och Ollama för lokala LLM
Körning av stora språkmodeller (LLMs) lokalt har blivit alltmer populärt för integritet, kostnadskontroll och offline-funktioner. Landskapet förändrades betydligt i april 2025 när Docker introducerade Docker Model Runner (DMR), deras officiella lösning för AI-modelldistribution.
Specialiserade chip gör AI-inferens snabbare och billigare
Framtiden för AI handlar inte bara om smartare modeller - det handlar om smartare silikon. Specialiserad hårdvara för LLM-inferens driver en revolution liknande Bitcoin-minerings övergång till ASICs.
Tillgänglighet, verkliga detaljhandelspriser i sex länder och jämförelse med Mac Studio.
NVIDIA DGX Spark är verkligt, till salu 15 oktober 2025, och riktar sig till CUDA-utvecklare som behöver lokalt LLM-arbete med en integrerad NVIDIA AI-stack. US MSRP $3,999; UK/DE/JP detaljhandel är högre på grund av moms och kanaler. AUD/KRW offentliga prislappar är inte ännu allmänt publicerade.
Jämförande av hastighet, parametrar och prestanda mellan dessa två modeller
Här är en jämförelse mellan Qwen3:30b och GPT-OSS:20b som fokuserar på instruktionsföljande och prestandaparametrar, specifikationer och hastighet:
+ Specifika exempel med tänkande LLMs
I det här inlägget kommer vi att utforska två sätt att ansluta din Python-applikation till Ollama: 1. Via HTTP REST API; 2. Via det officiella Ollama Python-biblioteket.
Inte särskilt trevligt.
Ollamas GPT-OSS-modeller har återkommande problem med hantering av strukturerad utdata, särskilt när de används med ramverk som LangChain, OpenAI SDK, vllm och andra.
Lätt olika API:er kräver en särskild tillvägagångssätt.
Här är en sida vid sida jämförelse av stöd för strukturerad utdata (att få tillförlitligt JSON tillbaka) över populära LLM-leverantörer (https://www.glukhov.org/sv/post/2025/10/structured-output-comparison-popular-llm-providers/ “strukturerad utdata över populära LLM-leverantörer”), plus minimala Python exempel
Några sätt att få strukturerad utdata från Ollama
Stora språkmodeller (LLMs) är kraftfulla, men i produktion vill vi sällan ha fritt formulerade stycken. Istället vill vi ha förutsägbart data: attribut, fakta eller strukturerade objekt som du kan mata in i en app. Det är LLM Strukturerad Utdata.
Min egen test av modellplanering i Ollama
Här jämför jag hur mycket VRAM den nya versionen av Ollama tilldelar modellen (https://www.glukhov.org/sv/post/2025/09/memory-allocation-in-ollama-new-version/ “Ollama VRAM-allokering”) jämfört med tidigare version. Den nya versionen är sämre.
Min syn på det nuvarande tillståndet för Ollama-utveckling
Ollama har snabbt blivit ett av de mest populära verktygen för att köra LLMs lokalt. Dess enkla CLI och strömlinjeformade modellhantering har gjort det till ett förstahandsval för utvecklare som vill arbeta med AI-modeller utanför molnet. Men som med många lovande plattformar finns det redan tecken på Enshittification:
Översikt över de mest framträdande gränssnitten för Ollama år 2025
Lokalt värdade Ollama gör det möjligt att köra stora språkmodeller på din egen dator, men att använda det via kommandoraden är inte användarvänligt. Här är flera öppna källkodsprojekt som erbjuder ChatGPT-stilgränssnitt som ansluter till ett lokalt Ollama.