AI - Rost Glukhov | Strona osobista i blog techniczny

Protokół Google A2A w 2026 roku: adopcja, hype i rzeczywistość

Protokół Agent2Agent od Google, zwykle skracany do A2A, miał dziwne pierwsze rok.

Agent polling w asystantach AI: 11 wzorców wdrożenia

Agentów sondujących (polling agents) należy uznać za jedną z najmniej glamour, ale zarazem najbardziej użytecznych części architektury asystentów AI.

A2A vs MCP: Czy agenci AI naprawdę potrzebują obu protokołów?

Architektura agentów AI zaczyna dzielić się na dwie warstwy.

Czym jest protokół A2A? Karty agentów i zadania wyjaśnione

Protokół A2A, skrótem od Agent2Agent Protocol, to otwarty standard komunikacji między niezależnymi systemami agentów AI.

Architektura LLM: Projektowanie systemów dla AI w środowisku produkcyjnym

Design decisions for production LLM systems — routing, cost, guardrails, and multi-model orchestration. The layer between running models and building reliable AI applications.

LLM Guardrails w praktyce: co naprawdę działa

Modele językowe LLM są nieprzewidywalne. Halucynują, ujawniają dane, generują szkodliwe treści lub odmawiają spełnienia legalnych zapytań. Mechanizmy ochronne (guardrails) ograniczają zachowanie modelu, nie kosztem jego możliwości.

Optymalizacja kosztów systemów LLM: gdzie naprawdę idzie pieniądze

Koszty LLM rosną liniowo wraz z użyciem. System przetwarzający 10 000 zapytań dziennie po cenie 0,01 USD za zapytanie kosztuje 100 USD dziennie — czyli 365 USD rocznie. W skali przedsiębiorczej to ponad 10 000 USD.

Projektowanie systemów wielomodelowych: kiedy jeden model to za mało

Systemy oparte na jednym modelu są proste. Systemy wielomodelowe są potężne. Wyzwanie nie polega na wyborze modeli – chodzi o zaprojektowanie architektury, która je koordynuje.

Routing modeli: przestań używać jednego modelu do wszystkiego

Uruchamianie modelu o 70 miliardach parametrów w celu podsumowania 200-znakowego e-maila jest marnotrawstwem. Zastosowanie modelu o 3 miliardach parametrów do recenzji kodu produkcyjnego jest bezmyślną ryzykownością. Większość systemów funkcjonuje gdzieś w tym spektrum – i tutaj z pomocą przychodzi routing modeli.

Pamięć przekształca asystentów z reaktywnych w trwałych, ale to również miejsce, w którym wiele systemów cicho się psuje. Ankiety wskazują, że podział na pamięć krótko- i długoterminową nie jest już wystarczający dla współczesnej pamięci agentów; OpenAI i SDK LangGraph wskazują na prostszą architekturę — pamięć roboczą, trwały stan i mechanizmy odzyskiwania danych.

Architektura asystenta AI: LLM, pamięć, narzędzia, routowanie, obserwowalność

Produkcjony asystent AI to nie „model LLM z promptem”. To system, który akceptuje intencję użytkownika, utrzymuje stan, decyduje, kiedy pobrać dane lub wykonać akcję, oraz udostępnia wystarczająco szczegółowe informacje o czasie działania, aby debugować awarie.

AI w zarządzaniu wiedzą: praktyczne przepływy pracy, które sprawdzą się w praktyce

AI nie zastępuje zarządzania wiedzą; zmienia jej kształt zarówno dla osób indywidualnych, jak i zespołów.

OpenClaw kontra Hermes Agent: gwiazdki, pobrania i użycie w 2026 roku

Otwartoźródłowe frameworki agentów AI zyskują na popularności na GitHubie w tempie wybuchowym. Dwa projekty lyingce w centrum ekosystemu samodzielnie hostowanych systemów AI — OpenClaw i Hermes Agent — wyprzedziły resztę pola tak daleko, że pozostali uczestnicy rywalizują o odległe trzecie miejsce.

Qwen 3.6 27B i 35B MTP w porównaniu do standardowych modeli na GPU z 16 GB

Przetestowałem wydajność spekulacyjnego dekodowania (Wieloznakowego Przewidywania, MTP) w modelach Qwen 3.6 27B i 35B na karcie RTX 4080 z 16 GB pamięci VRAM.

Usuń wszystkie modele routera llama.cpp bez restartowania

Tryb routera w llama.cpp to jedna z najbardziej przydatnych zmian wprowadzonych do llama-server w ciągu ostatnich lat. Wreszcie daje lokalnym operatorom modeli LLM coś w rodzaju zarządzania modelami, do którego są przyzwyczajeni z Ollama, jednocześnie zachowując surową wydajność i kontrolę na niskim poziomie, która sprawia, że warto korzystać z llama.cpp w pierwszej kolejności.

LLM Wiki – skompilowana wiedza, której RAG nie może zastąpić

Premisa jest prosta: skompilowana wiedza jest bardziej ponownie wykorzystywalna niż pobrane fragmenty. RAG stał się domyślną odpowiedzią na proste pytanie – jak zapewnić LLM dostęp do zewnętrznej wiedzy?