AI - Page 4 - Rost Glukhov | Sitio personal y blog técnico

Guía de configuración del tamaño de contexto de Docker Model Runner

Configuración de tamaños de contexto en Docker Model Runner es más compleja de lo que debería ser.

FLUX.1-Kontext-dev: Modelo de IA para aumento de imágenes

Black Forest Labs ha lanzado FLUX.1-Kontext-dev, un avanzado modelo de inteligencia artificial de imagen a imagen que mejora imágenes existentes mediante instrucciones de texto.

Añadir soporte para GPU de NVIDIA al ejecutor de modelos de Docker

Docker Model Runner es la herramienta oficial de Docker para ejecutar modelos de IA localmente, pero habilitar la aceleración de GPU de NVidia en Docker Model Runner requiere una configuración específica.

Reduzca los costos de LLM: Estrategias de optimización de tokens

La optimización de tokens es la habilidad crítica que separa las aplicaciones de LLM eficientes económicamente de experimentos que consumen presupuesto.

Autohospedaje de Immich: Nube de fotos privada

Immich es una solución revolucionaria de código abierto y autohospedada para la gestión de fotos y videos que te da el control total sobre tus recuerdos. Con características que rivalizan con Google Photos, incluyendo reconocimiento facial impulsado por inteligencia artificial, búsqueda inteligente y copia de seguridad automática desde dispositivos móviles, todo mientras mantienes tus datos privados y seguros en tu propio servidor.

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Comparación del rendimiento de Ollama

Investigué algunos interesantes tests de rendimiento del modelo GPT-OSS 120b ejecutándose en Ollama en tres plataformas diferentes: NVIDIA DGX Spark, Mac Studio y RTX 4080. El modelo GPT-OSS 120b del repositorio Ollama tiene un tamaño de 65GB, lo que significa que no cabe en los 16GB de VRAM de un RTX 4080 (ni en el más reciente RTX 5080).

Construyendo servidores MCP en Python: Guía de búsqueda en la web y raspado

El Protocolo de Contexto del Modelo (MCP) está revolucionando la forma en que los asistentes de IA interactúan con fuentes de datos externas y herramientas. En esta guía, exploraremos cómo construir servidores MCP en Python, con ejemplos centrados en las capacidades de búsqueda en la web y raspado.

Docker Model Runner Cheatsheet: Comandos y ejemplos

Docker Model Runner (DMR) es la solución oficial de Docker para ejecutar modelos de IA localmente, introducida en abril de 2025. Esta guía rápida proporciona una referencia rápida para todos los comandos esenciales, configuraciones y mejores prácticas.

Docker Model Runner vs Ollama (2026): ¿Cuál es mejor para LLMs locales?

Correr modelos de lenguaje grandes (LLMs) localmente ha ganado popularidad cada vez mayor por razones de privacidad, control de costos y capacidades fuera de línea. El paisaje cambió significativamente en abril de 2025 cuando Docker introdujo Docker Model Runner (DMR), su solución oficial para la implementación de modelos de IA.

El auge de los ASIC para LLM: ¿Por qué el hardware de inferencia importa

El futuro de IA no solo se trata de modelos más inteligentes modelos — se trata de silicio más inteligente.
El hardware especializado para inferencia de LLM está impulsando una revolución similar a la que experimentó la minería de Bitcoin al pasar a ASICs.

DGX Spark frente a Mac Studio: Análisis de precios de la supercomputadora personal de IA de NVIDIA

NVIDIA DGX Spark es real, está a la venta desde el 15 de octubre de 2025 y está dirigido a desarrolladores de CUDA que necesitan trabajo de LLM local con un stack de IA de NVIDIA integrado. El precio de venta al público en EE. UU. es de $3.999; el precio minorista en el Reino Unido/Alemania/Japón es más alto debido al IVA y a los canales de distribución. Los precios públicos en AUD/KRW aún no se han publicado ampliamente.

Clientes de Go para Ollama: comparación de SDK y ejemplos de Qwen3/GPT-OSS

Este guía proporciona una visión general completa de los disponibles SDKs de Go para Ollama y compara sus conjuntos de características.

Aquí hay una comparación entre Qwen3:30b y GPT-OSS:20b centrada en el seguimiento de instrucciones y parámetros de rendimiento, especificaciones y velocidad.

Problemas de salida estructurada de Ollama GPT-OSS

Los modelos GPT-OSS de Ollama tienen problemas recurrentes al manejar salidas estructuradas, especialmente cuando se usan con marcos como LangChain, OpenAI SDK, vllm y otros.

Limitar LLMs con salida estructurada: Ollama, Qwen3 & Python o Go

Modelos de Lenguaje Grande (LLMs) son poderosos, pero en producción raramente queremos párrafos libres. En su lugar, queremos datos predecibles: atributos, hechos u objetos estructurados que puedas alimentar en una aplicación. Eso es Salida Estructurada de LLM.

Asignación de memoria y programación del modelo en la nueva versión de Ollama - v0.12.1

Aquí estoy comparando cómo mucho VRAM la nueva versión de Ollama asigna al modelo con la versión anterior de Ollama. La nueva versión es peor.