Self-Hosting

Usuń wszystkie modele routera llama.cpp bez restartowania

Tryb routera w llama.cpp to jedna z najbardziej przydatnych zmian wprowadzonych do llama-server w ciągu ostatnich lat. Wreszcie daje lokalnym operatorom modeli LLM coś w rodzaju zarządzania modelami, do którego są przyzwyczajeni z Ollama, jednocześnie zachowując surową wydajność i kontrolę na niskim poziomie, która sprawia, że warto korzystać z llama.cpp w pierwszej kolejności.

Referencja parametrów wnioskowania dla agentycznych LLM w przypadku Qwen i Gemma

Ta strona stanowi praktyczny przewodnik do dostrajania wnioskowania agenticznego LLM (temperatura, top_p, top_k, kary i ich wzajemne oddziaływania w wieloetapowych przepływach pracy oraz w scenariuszach intensywnie wykorzystujących narzędzia).

Już teraz rozmawiasz z agentem Hermes przez telefon za pomocą wiadomości tekstowych. Teraz chcesz rozmawiać z nim bezpośrednio i otrzymywać odpowiedzi w formie mowy. Zazwyczaj jest to słuszny krok, zwłaszcza jeśli już korzystasz z Hermesa jako trwałego, lokalnie hostowanego asystenta. Pisanie długich promptów na małym ekranie jest powolne i podatne na błędy.

Praktyczny przewodnik NemoClaw dotyczące bezpiecznych operacji OpenClaw w 2026 roku

Większość stosów agentów AI nadal traktuje bezpieczeństwo jako poprawkę wprowadzaną po demonstracji. NemoClaw wychodzi z przeciwnej założenia i sprawia, że izolacja, polityki oraz routing są domyślnymi ustawieniami od pierwszego dnia.

Zarządzanie wiedzą w 2026 roku: narzędzia PKM, wiki self-hosted i systemy cyfrowe

Zarządzanie wiedzą osobistą obejmuje Obsidian, Logseq, DokuWiki, Zettelkasten oraz PARA — właściwy wybór zależy od tego, czy preferujesz lokalny graf notatek, wiki hostowane samodzielnie, czy też workflow napędzany przez outlinery.

Claude, OpenClaw i koniec płaskiego modelu cenowego dla agentów

Cicha luka, która napędzała falę eksperymentów z agentami, została teraz zamknięta.

Szybki start z Vane (Perplexica 2.0), Ollama i llama.cpp

Vane to jedna z bardziej praktycznych pozycji w przestrzeni „AI z wyszukiwaniem i cytowaniami": samodzielnie hostowana silnia odpowiedziowa, która łąży pobieranie danych z sieci w czasie rzeczywistym z lokalnymi lub chmurowymi modelami LLM, zachowując jednocześnie pełną kontrolę nad całą infrastrukturą.

TGI – Text Generation Inference – instalacja, konfiguracja, rozwiązywanie problemów

Text Generation Inference (TGI) ma bardzo specyficzną energię. Nie jest najmłodszym dzieckiem na ulicy inferencji, ale jest tym, które już nauczyło się, jak produkcja się psuje –

Testy wydajności LLM z 16 GB VRAM przy użyciu llama.cpp (prędkość i kontekst)

Porównuję tutaj prędkość działania kilku modeli LLM uruchamianych na GPU z 16 GB pamięci VRAM, wybierając najlepszy do samodzielnego hostowania.

Ceny, dostępność i rzeczywistość dla karty RTX 5090 w Australii w marcu 2026 roku

Australia ma na stanie karty RTX 5090. Ledwie. A jeśli którąś znajdziesz, zapłacisz cenę, która wydaje się oderwana od rzeczywistości.

Zdalny dostęp do Ollama przez Tailscale lub WireGuard bez otwierania portów publicznych.

Ollama czuje się najlepiej, gdy jest traktowane jak lokalny demon: CLI i Twoje aplikacje komunikują się z API HTTP na pętli lokalnej (loopback), a reszta sieci nigdy nie dowiaduje się o jego istnieniu.

Ollama w Docker Compose z obsługą GPU i trwałą pamięcią modeli

Ollama świetnie działa na “gołym metalu”. Zyskuje jednak na ciekawości, gdy potraktujesz ją jako usługę: stabilny punkt końcowy, zablokowane wersje, trwałe przechowywanie danych oraz dostępność GPU, która jest albo dostępna, albo nie.

Ollama za certyfikatem odwróconym (reverse proxy) z Caddy lub Nginx do strumieniowego dostępu HTTPS

Uruchomienie Ollama za pośrednictwem proxy odwrotnego to najprostszy sposób na uzyskanie HTTPS, opcjonalnej kontroli dostępu oraz przewidywalnego zachowania strumieniowego.

Wektory tekstowe dla RAG i wyszukiwania – Python, Ollama, API kompatybilne z OpenAI

Jeśli pracujesz nad generacją wspieraną odzyskiwaniem (RAG), ta sekcja wyjaśnia wektory tekstowe (embeddings) prostym językiem — czym są, jak pasują do wyszukiwania i odzyskiwania informacji, oraz jak wywołać dwa popularne lokalne rozwiązania z Pythonu przy użyciu Ollama lub kompatybilnego z OpenAI interfejsu HTTP (jakiego używają serwery oparte na llama.cpp).

Wyjaśnienie IndexNow – powiadamianie silników wyszukiwania o publikacji treści

Strony statyczne i blogi zmieniają się przy każdym wdrożeniu. Silniki wyszukiwania obsługujące IndexNow mogą dowiedzieć się o tych zmianach bez czekania na kolejną ślepą indeksację.

Szybki start z SGLang: instalacja, konfiguracja i uruchamianie modeli LLM przez API OpenAI

SGLang to wysokowydajny framework do obsługi dużych modeli językowych i multimodalnych, zaprojektowany do zapewnienia niskiego opóźnienia i wysokiej przepustowości podczas wnioskowania, niezależnie od tego, czy działa na pojedynczej karcie GPU, czy w rozproszonych klastrach.