LLM - Rost Glukhov | Sitio personal y blog técnico

Protocolo A2A de Google en 2026: adopción, expectativas y realidad

El protocolo Agent2Agent de Google, habitualmente abreviado como A2A, tuvo un primer año extraño.

Agentes de consulta en asistentes de IA: 11 patrones de implementación

Los agentes de sondeo (polling agents) son una de las partes menos glamorosas de la arquitectura de los asistentes de IA, pero también son una de las más útiles.

¿Qué es el protocolo A2A? Explicación de Agent Cards y Tareas

El Protocolo A2A, siglas de Protocolo Agent2Agent (Agente a Agente), es un estándar abierto para la comunicación entre sistemas de agentes de IA independientes.

A2A vs MCP: ¿Realmente los agentes de IA necesitan ambos protocolos?

La arquitectura de los agentes de IA está comenzando a dividirse en dos capas.

Arquitectura de LLM: Diseño de sistemas para IA en producción

Design decisions for production LLM systems — routing, cost, guardrails, and multi-model orchestration. The layer between running models and building reliable AI applications.

Diseño de sistemas multimodelos: cuándo un solo modelo no es suficiente

Los sistemas de un solo modelo son simples. Los sistemas de múltiples modelos son potentes. El desafío no consiste en elegir modelos, sino en diseñar la arquitectura que los orqueste.

Enrutamiento de modelos: deja de usar un solo modelo para todo

Ejecutar un modelo de 70 mil millones de parámetros para resumir un correo electrónico de 200 palabras es un desperdicio. Ejecutar un modelo de 3 mil millones de parámetros para revisar código en producción es imprudente. La mayoría de los sistemas se encuentran en algún punto intermedio, y ahí es donde entra la enrutación de modelos.

Guardrails para LLMs en la práctica: qué funciona realmente

Los modelos de lenguaje grande (LLM) son impredecibles. Alucinan, filtran datos, generan contenido dañino o rechazan solicitudes legítimas. Los mecanismos de protección (guardrails) restringen el comportamiento del modelo sin sacrificar su capacidad.

Optimización de costos para sistemas de LLM: dónde se invierte realmente el dinero

Los costos de los LLM escalan de forma lineal con el uso. Un sistema que procesa 10.000 solicitudes al día a $0,01 por solicitud cuesta $100 diarios — $365 al año. A escala empresarial, eso supera los $10.000.

La memoria transforma a los asistentes de reactivos a persistentes, pero también es donde muchos sistemas se deterioran silenciosamente. Las encuestas argumentan que la división entre memoria a corto y largo plazo ya no es suficiente para la memoria de los agentes modernos; los SDK de OpenAI y LangGraph apuntan a una arquitectura más simple: memoria de trabajo, estado duradero y recuperación.

Arquitectura del asistente de IA: LLM, memoria, herramientas, enrutamiento, observabilidad

Un asistente de IA en producción no es “un LLM con un prompt”. Es un sistema que acepta intenciones, mantiene estado, decide cuándo recuperar información o actuar, y expone suficiente detalle en tiempo de ejecución para depurar fallos.

IA para la gestión del conocimiento: flujos de trabajo reales que funcionan

La IA no está reemplazando la gestión del conocimiento; está cambiando su forma tanto para individuos como para equipos.

OpenClaw vs. Hermes Agent: Estrellas, Descargas y Uso en 2026

Los frameworks de agentes de IA de código abierto están experimentando un aumento explosivo en popularidad en GitHub. Dos proyectos en el centro del ecosistema de sistemas de IA autoalojados — OpenClaw y Hermes Agent — han avanzado tanto que el resto del campo lucha por un distante tercer lugar.

Qwen 3.6 27B y 35B MTP frente a estándar en GPU de 16 GB

Probé el rendimiento de la decodificación especulativa (Predicción Multitoken, MTP) en Qwen 3.6 27B y 35B en una RTX 4080 con 16 GB de VRAM.

Descargar todos los modelos del enrutador de llama.cpp sin reiniciar

Modo router de llama.cpp es uno de los cambios más útiles en llama-server en años. Finalmente ofrece a los operadores de LLM locales una experiencia de gestión de modelos cercana a la que las personas esperan de Ollama, manteniendo al mismo tiempo el rendimiento bruto y el control a bajo nivel que hacen que llama.cpp valga la pena usarlo en primer lugar.

LLM Wiki: Conocimiento compilado que el RAG no puede reemplazar

La premisa es simple: el conocimiento compilado es más reutilizable que los fragmentos recuperados. RAG se convirtió en la respuesta predeterminada a una pregunta directa: ¿cómo proporciono a un LLM acceso a conocimiento externo?