AI - Page 4 - Rost Glukhov | Strona osobista i blog techniczny

Docker Model Runner: Przewodnik konfiguracji rozmiaru kontekstu

Konfigurowanie rozmiarów kontekstu w Docker Model Runner jest bardziej skomplikowane, niż powinno być.

FLUX.1-Kontext-dev: Model uczenia maszynowego do wzmocnienia obrazów

Black Forest Labs wydała FLUX.1-Kontext-dev, zaawansowany model AI przekształcający obrazy na podstawie instrukcji tekstowych.

Dodanie obsługi GPU firmy NVIDIA do Docker Model Runner

Docker Model Runner to oficjalne narzędzie firmy Docker do uruchamiania modeli AI lokalnie, ale włączanie przyspieszenia GPU od firmy NVidia w Docker Model Runner wymaga konkretnej konfiguracji.

Zmniejsz koszty LLM: strategie optymalizacji tokenów

Optymalizacja tokenów to kluczowe umiejętności, które oddzielają kosztowne aplikacje LLM od doświadczeń zużycia budżetu.

Autonomiczne hostowanie Immich: prywatne chmura zdjęć

Immich to rewolucyjne, open-source, samozostawiające się rozwiązanie do zarządzania zdjęciami i filmami, które daje Ci pełną kontrolę nad swoimi wspomnieniami. Dzięki funkcjom równorzędnym Google Photos, w tym AI-powered rozpoznawaniu twarzy, inteligentnemu wyszukiwaniu i automatycznemu backupowi z telefonu, wszystko to, przy jednoczesnym zachowaniu prywatności i bezpieczeństwa danych na Twoim własnym serwerze.

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Porównanie wydajności Ollama

Znalazłem pewne ciekawe testy wydajności GPT-OSS 120b działającego na Ollama na trzech różnych platformach: NVIDIA DGX Spark, Mac Studio, i RTX 4080. Model GPT-OSS 120b z biblioteki Ollama waży 65 GB, co oznacza, że nie mieści się w 16 GB VRAM na RTX 4080 (ani w nowszej RTX 5080).

Tworzenie serwerów MCP w Pythonie: przewodnik po wyszukiwaniu w sieci i skrapowaniu

Protokół Kontekstu Modelu (MCP) rewolucjonizuje sposób, w jaki asystenci AI interagują z zewnętrznymi źródłami danych i narzędziami. W tym przewodniku omówimy, jak zbudować serwery MCP w Pythonie, z przykładami skupionymi na możliwościach wyszukiwania w sieci i skrapowania.

Docker Model Runner Cheatsheet: Polecenia i Przykłady

Docker Model Runner (DMR) to oficjalne rozwiązanie firmy Docker do uruchamiania modeli AI lokalnie, wprowadzone w kwietniu 2025. Ten cheatsheet zawiera szybki przewodnik po wszystkich istotnych poleceniach, konfiguracjach i najlepszych praktykach.

Docker Model Runner vs Ollama (2026): Który jest lepszy do lokalnych modeli LLM?

Uruchamianie dużych modeli językowych (LLM) lokalnie staje się coraz bardziej popularne ze względu na prywatność, kontrolę kosztów i możliwości offline. Landscape zmienił się znacząco w kwietniu 2025 roku, gdy Docker wprowadził Docker Model Runner (DMR), oficjalne rozwiązanie do wdrażania modeli AI.

Wzrost ASICów LLM: Dlaczego sprzęt do wnioskowania ma znaczenie

Przyszłość AI nie polega tylko na bardziej wyrafinowanych modelach – polega na bardziej wyrafinowanym krzemie.

Specjalistyczne sprzęty do wyznaczania wyników modeli językowych napędzają rewolucję podobną do przejścia górnictwa bitcoina na ASICy.

DGX Spark kontra Mac Studio: porównanie cenowe osobistego superkomputera AI od NVIDIA

NVIDIA DGX Spark jest prawdziwy, dostępny od 15 października 2025 r., skierowany do deweloperów CUDA potrzebujących lokalnej pracy z modelami LLM z zintegrowanym stackiem AI NVIDIA. Cena MSRP w USA: 3 999 USD; ceny detaliczne w Wielkiej Brytanii/Niemczech/Japonii są wyższe ze względu na VAT i kanały dystrybucji. Publiczne ceny w AUD/KRW nie są jeszcze szeroko publikowane.

Klienty Go dla Ollama: porównanie SDK oraz przykłady Qwen3/GPT-OSS

Ten przewodnik oferuje kompleksowy przegląd dostępnych Go SDKs dla Ollama i porównuje ich zestawy funkcji.

Oto porównanie między Qwen3:30b a GPT-OSS:20b skupiające się na przestrzeganiu instrukcji i parametrach wydajności, specyfikacjach oraz prędkości.

Problemy z wyjściowym formatem strukturyzowanym w Ollama GPT-OSS

Modely GPT-OSS z Ollama mają powtarzające się problemy z obsługą strukturalnego wyjścia, szczególnie gdy są używane wraz z frameworkami takimi jak LangChain, OpenAI SDK, vllm i innymi.

Ograniczanie LLM za pomocą strukturalnego wyjścia: Ollama, Qwen3 & Python lub Go

Duże modele językowe (LLMs)
są potężne, ale w środowisku produkcyjnym rzadko chcemy wolnych paragrafów.
Zamiast tego chcemy przewidywalne dane: atrybuty, fakty lub strukturalne obiekty, które można przekazać do aplikacji.
To Strukturalne wyjście LLM.

Przydzielanie pamięci i harmonogramowanie modeli w nowej wersji Ollama - v0.12.1

Oto porównanie jak dużo VRAM nowa wersja Ollama przydziela modelowi z poprzednią wersją Ollama. Nowa wersja jest gorsza.