DevOps

Usuń wszystkie modele routera llama.cpp bez restartowania

Tryb routera w llama.cpp to jedna z najbardziej przydatnych zmian wprowadzonych do llama-server w ciągu ostatnich lat. Wreszcie daje lokalnym operatorom modeli LLM coś w rodzaju zarządzania modelami, do którego są przyzwyczajeni z Ollama, jednocześnie zachowując surową wydajność i kontrolę na niskim poziomie, która sprawia, że warto korzystać z llama.cpp w pierwszej kolejności.

Kanban w Hermes Agent dla samodzielnie hostowanych przepływów pracy LLM

Hermes Agent dostarcza tablicę w stylu Kanban oraz Hermes Gateway, które mogą przytłoczyć Twoją własną samohostowaną LLM, jeśli jednocześnie zostanie uruchomionych zbyt wiele zadań.

Tryb routera Llama-Server – dynamiczne przełączanie modeli bez restartów

Przez długi czas llama.cpp miał rażącą wadę:
można było serwować tylko jeden model na proces, a jego zmiana wymagała restartu.

Wtyczki OpenClaw — przewodnik po ekosystemie i praktyczne rekomendacje

Ten artykuł dotyczy wtyczek OpenClaw — natywnych pakietów bramkowych, które dodają kanały, dostawców modeli, narzędzia, funkcje głosowe, pamięć, media, wyszukiwanie w sieci oraz inne warstwy środowiska wykonawczego.

Asystent Hermes AI – instalacja, konfiguracja, przepływ pracy i rozwiązywanie problemów

Hermes Agent to samodzielnie hostowany, agnostyczny względem modelu asystent AI, który działa na lokalnym komputerze lub tanim VPS, działa poprzez interfejsy terminala i wiadomości oraz ulepszanie się z czasem poprzez przekształcanie powtarzalnych zadań w wielokrotnego użytku umiejętności.

Zdalny dostęp do Ollama przez Tailscale lub WireGuard bez otwierania portów publicznych.

Ollama czuje się najlepiej, gdy jest traktowane jak lokalny demon: CLI i Twoje aplikacje komunikują się z API HTTP na pętli lokalnej (loopback), a reszta sieci nigdy nie dowiaduje się o jego istnieniu.

Ollama w Docker Compose z obsługą GPU i trwałą pamięcią modeli

Ollama świetnie działa na “gołym metalu”. Zyskuje jednak na ciekawości, gdy potraktujesz ją jako usługę: stabilny punkt końcowy, zablokowane wersje, trwałe przechowywanie danych oraz dostępność GPU, która jest albo dostępna, albo nie.

Ollama za certyfikatem odwróconym (reverse proxy) z Caddy lub Nginx do strumieniowego dostępu HTTPS

Uruchomienie Ollama za pośrednictwem proxy odwrotnego to najprostszy sposób na uzyskanie HTTPS, opcjonalnej kontroli dostępu oraz przewidywalnego zachowania strumieniowego.

Apache Flink na K8s i Kafka: PyFlink, Go, operacje oraz cennik zarządzany.

Apache Flink to framework do obliczeń z pamięcią stanu (stateful computations) nad nieograniczonymi i ograniczonymi strumieniami danych.

Baza danych grafowa Neo4j dla GraphRAG, instalacja, Cypher, wektory, operacje.

Neo4j to narzędzie, do którego sięgamy, gdy relacje są danymi. Jeśli domena Twojego projektu wygląda jak tablica kreskowa z kółkami i strzałkami, wymuszanie jej na tabele jest bolesne.

Wyjaśnienie IndexNow – powiadamianie silników wyszukiwania o publikacji treści

Strony statyczne i blogi zmieniają się przy każdym wdrożeniu. Silniki wyszukiwania obsługujące IndexNow mogą dowiedzieć się o tych zmianach bez czekania na kolejną ślepą indeksację.

Szybki start z SGLang: instalacja, konfiguracja i uruchamianie modeli LLM przez API OpenAI

SGLang to wysokowydajny framework do obsługi dużych modeli językowych i multimodalnych, zaprojektowany do zapewnienia niskiego opóźnienia i wysokiej przepustowości podczas wnioskowania, niezależnie od tego, czy działa na pojedynczej karcie GPU, czy w rozproszonych klastrach.

Szybki start przełącznika modeli llama.swap dla lokalnych LLM kompatybilnych z OpenAI

Wkrótce będziesz balansować między vLLM, llama.cpp i innymi rozwiązaniami – każdy stos na własnym porcie. Wszystko w dalszym ciągu oczekuje jednego podstawowego adresu URL /v1; inaczej ciągle będziesz przesuwać porty, profile i skrypty ad-hoc. llama-swap jest proxy /v1 przed tymi stosami.

Szybki start z Apache Kafka – instalacja Kafki 4.2 z CLI i lokalnymi przykładami

Apache Kafka 4.2.0 to obecnie wspierana linia wydań i stanowi najlepszą bazę do nowoczesnego szybkiego startu, ponieważ Kafka 4.x jest w pełni pozbawiona ZooKeepera i domyślnie opiera się na KRaft.

Narzędzia dla deweloperów: Kompletny przewodnik po nowoczesnych przepływach pracy programistycznej

Tworzenie oprogramowania wymaga Git do kontroli wersji, Docker do konteneryzacji, bash do automatyzacji, PostgreSQL do baz danych oraz VS Code do edytowania — a także niezliczonych innych narzędzi, które mogą zdefiniować lub zniszczyć Twoją produktywność. Ta strona gromadzi niezbędne skróty klawiszowe, przepływy pracy i porównania, których potrzebujesz, aby pracować wydajnie na całym stosie technologicznym.

LocalAI QuickStart: Uruchamianie lokalnie modeli LLM zgodnych z OpenAI

LocalAI to serwer inferencji typu self-hosted i first-local zaprojektowany tak, aby zachowywał się jak kompatybilny zamiennik API OpenAI do uruchamiania obciążeń AI na Twoim własnym sprzęcie (laptop, stacja robocza lub serwer lokalny).