LLM - Page 5 - Rost Glukhov | Strona osobista i blog techniczny

Infrastruktura sztucznej inteligencji na sprzęcie konsumenckim

Demokratyzacja sztucznej inteligencji jest tuż przed nami. Dzięki otwartym modelom LLM takim jak Llama, Mistral i Qwen, które dorównują już modelom własnościowym, zespoły mogą budować potężną infrastrukturę AI na sprzęcie konsumenckim – drastycznie obniżając koszty, jednocześnie zachowując pełną kontrolę nad prywatnością danych i wdrożeniem.

Zaawansowane RAG: Wyjaśnienie LongRAG, Self-RAG i GraphRAG

Generowanie Wspomagane Odtwarzaniem (RAG) ewoluowało znacznie poza proste wyszukiwanie wektorowe oparte na podobieństwie. LongRAG, Self-RAG oraz GraphRAG reprezentują wiodącą krawędź tych możliwości.

Uruchamianie FLUX.1-dev GGUF Q8 w Pythonie

FLUX.1-dev to potężny model generowania obrazów na podstawie tekstu, który daje wspaniałe wyniki, ale jego wymagania co do pamięci (24 GB i więcej) sprawiają, że trudno go uruchomić na wielu systemach. GGUF quantization of FLUX.1-dev oferta rozwiązania, które zmniejsza zużycie pamięci o około 50%, jednocześnie zachowując bardzo dobre jakość obrazów.

Docker Model Runner: Przewodnik konfiguracji rozmiaru kontekstu

Konfigurowanie rozmiarów kontekstu w Docker Model Runner jest bardziej skomplikowane, niż powinno być.

FLUX.1-Kontext-dev: Model uczenia maszynowego do wzmocnienia obrazów

Black Forest Labs wydała FLUX.1-Kontext-dev, zaawansowany model AI przekształcający obrazy na podstawie instrukcji tekstowych.

Dodanie obsługi GPU firmy NVIDIA do Docker Model Runner

Docker Model Runner to oficjalne narzędzie firmy Docker do uruchamiania modeli AI lokalnie, ale włączanie przyspieszenia GPU od firmy NVidia w Docker Model Runner wymaga konkretnej konfiguracji.

Zmniejsz koszty LLM: strategie optymalizacji tokenów

Optymalizacja tokenów to kluczowe umiejętności, które oddzielają kosztowne aplikacje LLM od doświadczeń zużycia budżetu.

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Porównanie wydajności Ollama

Znalazłem pewne ciekawe testy wydajności GPT-OSS 120b działającego na Ollama na trzech różnych platformach: NVIDIA DGX Spark, Mac Studio, i RTX 4080. Model GPT-OSS 120b z biblioteki Ollama waży 65 GB, co oznacza, że nie mieści się w 16 GB VRAM na RTX 4080 (ani w nowszej RTX 5080).

Tworzenie serwerów MCP w Pythonie: przewodnik po wyszukiwaniu w sieci i skrapowaniu

Protokół Kontekstu Modelu (MCP) rewolucjonizuje sposób, w jaki asystenci AI interagują z zewnętrznymi źródłami danych i narzędziami. W tym przewodniku omówimy, jak zbudować serwery MCP w Pythonie, z przykładami skupionymi na możliwościach wyszukiwania w sieci i skrapowania.

Konwersja HTML na Markdown za pomocą Pythona: Kompletny przewodnik

Konwersja HTML na Markdown to fundamentalna czynność w nowoczesnych przepływach pracy programistycznych, szczególnie przygotowując treści sieciowe do Large Language Models (LLM), systemów dokumentacji lub generatorów stron statycznych takich jak Hugo. Niniejszy przewodnik jest częścią naszego Narzędzi do Dokumentacji w 2026: Markdown, LaTeX, PDF i Pracy z Drukowaniem.

Docker Model Runner Cheatsheet: Polecenia i Przykłady

Docker Model Runner (DMR) to oficjalne rozwiązanie firmy Docker do uruchamiania modeli AI lokalnie, wprowadzone w kwietniu 2025. Ten cheatsheet zawiera szybki przewodnik po wszystkich istotnych poleceniach, konfiguracjach i najlepszych praktykach.

Docker Model Runner vs Ollama (2026): Który jest lepszy do lokalnych modeli LLM?

Uruchamianie dużych modeli językowych (LLM) lokalnie staje się coraz bardziej popularne ze względu na prywatność, kontrolę kosztów i możliwości offline. Landscape zmienił się znacząco w kwietniu 2025 roku, gdy Docker wprowadził Docker Model Runner (DMR), oficjalne rozwiązanie do wdrażania modeli AI.

ASIC-y dla dużych modeli językowych i specjalizowane układy do inferencji (dlaczego są ważne)

Przyszłość AI to nie tylko mądrzejsze modele. To również półprzewodniki dostosowane do sposobu, w jaki te modele są faktycznie obsługiwane. Specjalistyczne układy sprzętowe do wnioskowania LLM podążają ścieżką przypominającą ewolucję kopalni Bitcoina od GPU do dedykowanych układów ASIC, choć z jeszcze bardziej surowymi ograniczeniami, ponieważ modele i metody precyzji ciągle się ewoluują.

DGX Spark kontra Mac Studio: porównanie cenowe osobistego superkomputera AI od NVIDIA

NVIDIA DGX Spark jest prawdziwy, dostępny od 15 października 2025 r., skierowany do deweloperów CUDA potrzebujących lokalnej pracy z modelami LLM z zintegrowanym stackiem AI NVIDIA. Cena MSRP w USA: 3 999 USD; ceny detaliczne w Wielkiej Brytanii/Niemczech/Japonii są wyższe ze względu na VAT i kanały dystrybucji. Publiczne ceny w AUD/KRW nie są jeszcze szeroko publikowane.

Oto porównanie między Qwen3:30b a GPT-OSS:20b skupiające się na przestrzeganiu instrukcji i parametrach wydajności, specyfikacjach oraz prędkości.

Integracja Ollama z Pythonem: Przykłady REST API i klienta Pythona

W tym wpisie omówimy dwa sposoby połączenia swojej aplikacji Python z Ollama: 1. Poprzez HTTP REST API; 2. Poprzez oficjalną bibliotekę Pythona do Ollama.