AI - Page 2 - Rost Glukhov | Sitio personal y blog técnico

FLUX.1-Kontext-dev: Modelo de IA para aumento de imágenes

Black Forest Labs ha lanzado FLUX.1-Kontext-dev, un avanzado modelo de inteligencia artificial de imagen a imagen que mejora imágenes existentes mediante instrucciones de texto.

Añadir soporte para GPU de NVIDIA al ejecutor de modelos de Docker

Docker Model Runner es la herramienta oficial de Docker para ejecutar modelos de IA localmente, pero habilitar la aceleración de GPU de NVidia en Docker Model Runner requiere una configuración específica.

Reduzca los costos de LLM: Estrategias de optimización de tokens

La optimización de tokens es la habilidad crítica que separa las aplicaciones de LLM eficientes económicamente de experimentos que consumen presupuesto.

Autohospedaje de Immich: Nube de fotos privada

Immich es una solución revolucionaria de código abierto y autohospedada para la gestión de fotos y videos que te da el control total sobre tus recuerdos. Con características que rivalizan con Google Photos, incluyendo reconocimiento facial impulsado por inteligencia artificial, búsqueda inteligente y copia de seguridad automática desde dispositivos móviles, todo mientras mantienes tus datos privados y seguros en tu propio servidor.

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Comparación de rendimiento de Ollama

Investigué algunos interesantes tests de rendimiento del modelo GPT-OSS 120b ejecutándose en Ollama en tres plataformas diferentes: NVIDIA DGX Spark, Mac Studio y RTX 4080. El modelo GPT-OSS 120b del repositorio Ollama tiene un tamaño de 65 GB, lo que significa que no cabe en los 16 GB de VRAM de una RTX 4080 (ni en la más reciente RTX 5080).

Construyendo servidores MCP en Python: Guía de búsqueda en la web y raspado

El Protocolo de Contexto del Modelo (MCP) está revolucionando la forma en que los asistentes de IA interactúan con fuentes de datos externas y herramientas. En esta guía, exploraremos cómo construir servidores MCP en Python, con ejemplos centrados en las capacidades de búsqueda en la web y raspado.

Docker Model Runner Guía Rápida: Comandos y Ejemplos

Docker Model Runner (DMR) es la solución oficial de Docker para ejecutar modelos de IA localmente, introducida en abril de 2025. Esta guía rápida proporciona una referencia rápida para todos los comandos esenciales, configuraciones y mejores prácticas.

Docker Model Runner vs Ollama: ¿Cuál elegir?

Running large language models (LLMs) locally ha ganado popularidad en los últimos tiempos por razones de privacidad, control de costos y capacidades fuera de línea. El panorama cambió significativamente en abril de 2025 cuando Docker introdujo Docker Model Runner (DMR), su solución oficial para la implementación de modelos de IA.

El auge de los ASIC para LLM: ¿Por qué el hardware de inferencia importa

El futuro de IA no es solo sobre modelos más inteligentes modelos — es sobre silicio más inteligente.
El hardware especializado para inferencia de LLM está impulsando una revolución similar a la transición del minado de Bitcoin hacia los ASICs.

DGX Spark vs. Mac Studio: Análisis de precios del superordenador personal de NVIDIA

NVIDIA DGX Spark es real, disponible para la venta el 15 de octubre de 2025, y está dirigido a desarrolladores de CUDA que necesitan realizar trabajo local con LLM con una pila de IA integrada de NVIDIA. Precio de venta al por mayor en EE. UU. $3,999; el precio de venta al por menor en Reino Unido/DE/JP es más alto debido al IVA y al canal. Los precios públicos en AUD/KRW aún no están ampliamente publicados.

Clientes de Go para Ollama: comparación de SDK y ejemplos de Qwen3/GPT-OSS

Este guía proporciona una visión general completa de los disponibles SDKs de Go para Ollama y compara sus conjuntos de características.

Aquí hay una comparación entre Qwen3:30b y GPT-OSS:20b enfocada en el seguimiento de instrucciones y parámetros de rendimiento, especificaciones y velocidad:

Problemas de salida estructurada de Ollama GPT-OSS

Los modelos GPT-OSS de Ollama tienen problemas recurrentes al manejar salidas estructuradas, especialmente cuando se usan con marcos como LangChain, OpenAI SDK, vllm y otros.

Limitar LLMs con salida estructurada: Ollama, Qwen3 & Python o Go

Modelos de Lenguaje Grande (LLMs) son poderosos, pero en producción raramente queremos párrafos libres. En su lugar, queremos datos predecibles: atributos, hechos u objetos estructurados que puedas alimentar en una aplicación. Eso es Salida Estructurada de LLM.

Modelo de programación de asignación de memoria en la nueva versión de Ollama - v0.12.1

Aquí estoy comparando cuánta VRAM asigna la nueva versión de Ollama al modelo con la versión anterior de Ollama. La nueva versión es peor.

Enshittificación de Ollama: los primeros signos

Ollama ha pasado rápidamente a ser una de las herramientas más populares para ejecutar LLMs localmente.
Su CLI simple y su gestión de modelos optimizada han hecho que sea una opción favorita para desarrolladores que desean trabajar con modelos de IA fuera de la nube.
Pero, al igual que con muchas plataformas prometedoras, ya hay señales de Enshittification: