LLM - Page 2 - Rost Glukhov | Strona osobista i blog techniczny

Zmniejsz koszty LLM: strategie optymalizacji tokenów

Optymalizacja tokenów to kluczowe umiejętności, które oddzielają kosztowne aplikacje LLM od doświadczeń zużycia budżetu.

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Porównanie wydajności Ollama

Znalazłem kilka ciekawych testów wydajności GPT-OSS 120b działającego na Ollama na trzech różnych platformach: NVIDIA DGX Spark, Mac Studio i RTX 4080. Model GPT-OSS 120b z biblioteki Ollama waży 65 GB, co oznacza, że nie mieści się w 16 GB VRAM na RTX 4080 (ani w nowszej RTX 5080).

Tworzenie serwerów MCP w Pythonie: przewodnik po wyszukiwaniu w sieci i skrapowaniu

Protokół Kontekstu Modelu (MCP) rewolucjonizuje sposób, w jaki asystenci AI interagują z zewnętrznymi źródłami danych i narzędziami. W tym przewodniku omówimy, jak zbudować serwery MCP w Pythonie, z przykładami skupionymi na możliwościach wyszukiwania w sieci i skrapowania.

Konwersja HTML na Markdown za pomocą Pythona: Kompletny przewodnik

Konwersja HTML na Markdown to podstawowe zadanie w współczesnych przepływach pracy programistycznych, szczególnie przygotowując treści internetowe do Large Language Models (LLM), systemów dokumentacji lub generatorów stron statycznych takich jak Hugo.

Docker Model Runner Cheatsheet: Polecenia i Przykłady

Docker Model Runner (DMR) to oficjalne rozwiązanie firmy Docker do uruchamiania modeli AI lokalnie, wprowadzone w kwietniu 2025 roku. Ten cheatsheet zawiera szybki przewodnik po wszystkich istotnych komendach, konfiguracjach i najlepszych praktykach.

Docker Model Runner vs Ollama: Który wybrać?

Uruchamianie dużych modeli językowych (LLM) lokalnie staje się coraz bardziej popularne ze względu na prywatność, kontrolę kosztów i możliwości offline. Landscape zmienił się znacząco w kwietniu 2025 roku, gdy Docker wprowadził Docker Model Runner (DMR), oficjalne rozwiązanie do wdrażania modeli AI.

Powstanie układów ASIC do LLM: Dlaczego sprzęt do wnioskowania ma znaczenie

Przyszłość AI nie jest tylko o bardziej inteligentne modele – jest o bardziej inteligentny krzem.
Specjalistyczne sprzęty do wyznaczania wyników LLM napędzają rewolucję podobną do przejścia od wydobywania bitcoina do ASICów.

DGX Spark vs. Mac Studio: Sprawdzone cenowo porównanie osobistego superkomputera AI firmy NVIDIA

NVIDIA DGX Spark jest rzeczywisty, dostępny do zakupu 15 października 2025 roku, i skierowany do programistów CUDA, którzy potrzebują lokalnej pracy z LLM zintegrowanej z NVIDIA AI stack. Cena MSRP w Stanach Zjednoczonych to $3 999; UK/DE/JP ma wyższą cenę detaliczną z powodu VAT i kanałów. AUD/KRW publiczne ceny są jeszcze nie powszechnie opublikowane.

Oto porównanie między Qwen3:30b a GPT-OSS:20b skupiające się na przestrzeganiu instrukcji i parametrach wydajności, specyfikacjach oraz prędkości:

Integracja Ollama z Pythonem: Przykłady API REST i klienta w Pythonie

W tym wpisie omówimy dwa sposoby łączenia swojej aplikacji Python z Ollama: 1. Poprzez HTTP REST API; 2. Poprzez oficjalną bibliotekę Pythona dla Ollama.

Problemy z wyjściowym formatem strukturyzowanym w Ollama GPT-OSS

Modele GPT-OSS z Ollama mają powtarzające się problemy z obsługą strukturalnego wyjścia, zwłaszcza gdy są używane wraz z frameworkami takimi jak LangChain, OpenAI SDK, vllm i innymi.

Porównanie strukturalnego wyjścia wśród popularnych dostawców LLM – OpenAI, Gemini, Anthropic, Mistral i AWS Bedrock

Oto porównanie wsparcia w formie obok siebie dla strukturalnego wyjścia (otrzymywanie niezawodnego JSON) wśród popularnych dostawców LLM, wraz z minimalnymi przykładami w Pythonie

Ograniczanie LLM za pomocą strukturalnego wyjścia: Ollama, Qwen3 & Python lub Go

Duże modele językowe (LLMs)
są potężne, ale w środowisku produkcyjnym rzadko chcemy wolnych paragrafów.
Zamiast tego chcemy przewidywalne dane: atrybuty, fakty lub strukturalne obiekty, które można przekazać do aplikacji.
To Strukturalne wyjście LLM.

Model planowania przydzielania pamięci w nowej wersji Ollama - v0.12.1

Oto porównanie jak dużo VRAM nowa wersja Ollama przydziela modelowi
z poprzednią wersją Ollama. Nowa wersja jest gorsza.

Enshittification Ollama – wczesne objawy

Ollama szybko stało się jednym z najpopularniejszych narzędzi do lokalnego uruchamiania modeli językowych. Jego prosty interfejs CLI oraz zoptymalizowany zarządzanie modelami sprawiły, że stał się pierwszym wyborem dla programistów, którzy chcą pracować z modelami AI poza chmurą. Ale tak jak w przypadku wielu obiecujących platform, już teraz pojawiają się pierwsze oznaki Enshittification:

Interfejsy chatu dla lokalnych instancji Ollama

Lokalnie hostowany Ollama umożliwia uruchamianie dużych modeli językowych na własnym komputerze, ale korzystanie z niego przez wiersz poleceń nie jest przyjazne dla użytkownika. Oto kilka projektów open source, które oferują interfejsy stylu ChatGPT, łączące się z lokalnym Ollama.