Docker Model Runner: Przewodnik konfiguracji rozmiaru kontekstu
Skonfiguruj rozmiary kontekstów w Docker Model Runner z użyciem zaokrągleń
Konfigurowanie rozmiarów kontekstu w Docker Model Runner jest bardziej skomplikowane, niż powinno być.
Skonfiguruj rozmiary kontekstów w Docker Model Runner z użyciem zaokrągleń
Konfigurowanie rozmiarów kontekstu w Docker Model Runner jest bardziej skomplikowane, niż powinno być.
Model AI do wzbogacania obrazów za pomocą instrukcji tekstowych
Black Forest Labs wydała FLUX.1-Kontext-dev, zaawansowany model AI przekształcający obrazy na podstawie instrukcji tekstowych.
Włącz przyspieszenie GPU dla Docker Model Runner z obsługą NVIDIA CUDA
Docker Model Runner to oficjalne narzędzie firmy Docker do uruchamiania modeli AI lokalnie, ale włączanie przyspieszenia GPU od firmy NVidia w Docker Model Runner wymaga konkretnej konfiguracji.
Zredukuj koszty LLM o 80% dzięki inteligentnej optymalizacji tokenów
Optymalizacja tokenów to kluczowe umiejętności, które oddzielają kosztowne aplikacje LLM od doświadczeń zużycia budżetu.
Twoje zdjęcia w samodzielnej, AI-opartej kopii zapasowej
Immich to rewolucyjne, open-source, samozostawiające się rozwiązanie do zarządzania zdjęciami i filmami, które daje Ci pełną kontrolę nad swoimi wspomnieniami. Dzięki funkcjom równorzędnym Google Photos, w tym AI-powered rozpoznawaniu twarzy, inteligentnemu wyszukiwaniu i automatycznemu backupowi z telefonu, wszystko to, przy jednoczesnym zachowaniu prywatności i bezpieczeństwa danych na Twoim własnym serwerze.
Wyniki testów GPT-OSS 120b na trzech platformach AI
Znalazłem pewne ciekawe testy wydajności GPT-OSS 120b działającego na Ollama na trzech różnych platformach: NVIDIA DGX Spark, Mac Studio, i RTX 4080. Model GPT-OSS 120b z biblioteki Ollama waży 65 GB, co oznacza, że nie mieści się w 16 GB VRAM na RTX 4080 (ani w nowszej RTX 5080).
Tworzenie serwerów MCP dla asystentów AI z przykładami w Pythonie
Protokół Kontekstu Modelu (MCP) rewolucjonizuje sposób, w jaki asystenci AI interagują z zewnętrznymi źródłami danych i narzędziami. W tym przewodniku omówimy, jak zbudować serwery MCP w Pythonie, z przykładami skupionymi na możliwościach wyszukiwania w sieci i skrapowania.
Szybki przewodnik po poleceniach Docker Model Runnera
Docker Model Runner (DMR) to oficjalne rozwiązanie firmy Docker do uruchamiania modeli AI lokalnie, wprowadzone w kwietniu 2025. Ten cheatsheet zawiera szybki przewodnik po wszystkich istotnych poleceniach, konfiguracjach i najlepszych praktykach.
Porównaj Docker Model Runner i Ollama w kontekście lokalnych modeli LLM
Uruchamianie dużych modeli językowych (LLM) lokalnie staje się coraz bardziej popularne ze względu na prywatność, kontrolę kosztów i możliwości offline. Landscape zmienił się znacząco w kwietniu 2025 roku, gdy Docker wprowadził Docker Model Runner (DMR), oficjalne rozwiązanie do wdrażania modeli AI.
Specjalistyczne procesory sprawiają, że wnioskowanie w AI jest szybsze i tańsze.
Przyszłość AI nie polega tylko na bardziej wyrafinowanych modelach – polega na bardziej wyrafinowanym krzemie.
Specjalistyczne sprzęty do wyznaczania wyników modeli językowych napędzają rewolucję podobną do przejścia górnictwa bitcoina na ASICy.
Dostępność, rzeczywiste ceny detaliczne w sześciu krajach oraz porównanie z Mac Studio.
NVIDIA DGX Spark jest prawdziwy, dostępny od 15 października 2025 r., skierowany do deweloperów CUDA potrzebujących lokalnej pracy z modelami LLM z zintegrowanym stackiem AI NVIDIA. Cena MSRP w USA: 3 999 USD; ceny detaliczne w Wielkiej Brytanii/Niemczech/Japonii są wyższe ze względu na VAT i kanały dystrybucji. Publiczne ceny w AUD/KRW nie są jeszcze szeroko publikowane.
Integracja Ollama z Go: przewodnik po SDK, przykłady i najlepsze praktyki w środowisku produkcyjnym.
Ten przewodnik oferuje kompleksowy przegląd dostępnych Go SDKs dla Ollama i porównuje ich zestawy funkcji.
Porównanie prędkości, parametrów i wydajności tych dwóch modeli
Oto porównanie między Qwen3:30b a GPT-OSS:20b skupiające się na przestrzeganiu instrukcji i parametrach wydajności, specyfikacjach oraz prędkości.
Nie bardzo ładnie.
Modely GPT-OSS z Ollama mają powtarzające się problemy z obsługą strukturalnego wyjścia, szczególnie gdy są używane wraz z frameworkami takimi jak LangChain, OpenAI SDK, vllm i innymi.
Kilka sposobów na uzyskanie strukturalnego wyjścia z Ollama
Duże modele językowe (LLMs)
są potężne, ale w środowisku produkcyjnym rzadko chcemy wolnych paragrafów.
Zamiast tego chcemy przewidywalne dane: atrybuty, fakty lub strukturalne obiekty, które można przekazać do aplikacji.
To Strukturalne wyjście LLM.
Moje własne testy harmonogramowania modeli ollama
Oto porównanie jak dużo VRAM nowa wersja Ollama przydziela modelowi z poprzednią wersją Ollama. Nowa wersja jest gorsza.