LLM - Page 3 - Rost Glukhov | Sitio personal y blog técnico

vLLM es un motor de inferencia y servicio de alto rendimiento y eficiente en memoria para Modelos de Lenguaje Grandes (LLM), desarrollado por el Laboratorio de Computación Sky de la Universidad de California, Berkeley.

Precios de DGX Spark AU: $6.249-$7.999 en principales minoristas

El NVIDIA DGX Spark (GB10 Grace Blackwell) ya está disponible en Australia en los principales minoristas de PC con stock local. Si has estado siguiendo los precios y disponibilidad globales del DGX Spark, te interesará saber que los precios en Australia oscilan entre $6.249 y $7.999 AUD, dependiendo de la configuración de almacenamiento y del minorista.

Detectando el AI Slop: Técnicas y señales de alerta

La proliferación de contenido generado por IA ha creado un nuevo desafío: distinguir entre escritura humana auténtica y “IA slop” - texto sintético de baja calidad, producido en masa.

Autohospedaje de Cognee: Elegir LLM en Ollama

Cognee es un marco de Python para construir grafos de conocimiento a partir de documentos utilizando LLMs. ¿Pero funciona con modelos autohospedados?

BAML vs Instructor: Salidas de LLM estructuradas

Cuando se trabaja con Modelos de Lenguaje Grande en producción, obtener salidas estructuradas y seguras en cuanto al tipo es crítico.
Dos marcos populares — BAML y Instructor — toman enfoques diferentes para resolver este problema.

Elegir el LLM adecuado para Cognee: Configuración local de Ollama

Elegir el Mejor LLM para Cognee requiere equilibrar la calidad de construcción de gráficos, las tasas de alucinación y las restricciones de hardware. Cognee destaca con modelos grandes de baja alucinación (32B+) a través de Ollama pero las opciones de tamaño medio funcionan para configuraciones más ligeras.

Usar la API de búsqueda web de Ollama en Python

La biblioteca de Python de Ollama ahora incluye capacidades nativas de búsqueda web de OLLama. Con solo unas pocas líneas de código, puedes mejorar tus LLMs locales con información en tiempo real desde la web, reduciendo las alucinaciones e incrementando la precisión.

Comparación de almacenes vectoriales para RAG

Elegir el almacén de vectores adecuado puede hacer o deshacer el rendimiento, el costo y la escalabilidad de tu aplicación RAG. Esta comparación integral cubre las opciones más populares en 2024-2025.

Usando la API de búsqueda web de Ollama en Go

La API de búsqueda web de Ollama le permite mejorar los LLM locales con información en tiempo real de la web. Esta guía le muestra cómo implementar capacidades de búsqueda web en Go, desde llamadas simples a la API hasta agentes de búsqueda completos.

Ollama vs vLLM vs LM Studio: ¿La mejor forma de ejecutar LLMs localmente en 2026?

Ejecutar LLMs localmente es ahora práctico para desarrolladores, startups e incluso equipos empresariales.
Pero elegir la herramienta adecuada — Ollama, vLLM, LM Studio, LocalAI u otras — depende de tus objetivos:

Go Microservicios para la Orquestación de IA/ML

A medida que las cargas de trabajo de IA y ML se vuelven cada vez más complejas, la necesidad de sistemas de orquestación robustos se ha vuelto más urgente. La simplicidad, el rendimiento y la concurrencia de Go lo convierten en una opción ideal para construir la capa de orquestación de pipelines de ML, incluso cuando los modelos mismos se escriben en Python.

Incrustaciones Multimodales: Conectando Modalidades de IA

Embeddings cruzales representan un avance significativo en inteligencia artificial, permitiendo entender y razonar entre diferentes tipos de datos dentro de un espacio de representación unificado.

Infraestructura de IA en hardware de consumo

La democratización de la IA está aquí. Con modelos de lenguaje de gran tamaño (LLM) de código abierto como Llama, Mistral y Qwen rivalizando ahora con los modelos propietarios, los equipos pueden construir una infraestructura de IA utilizando hardware de consumo, reduciendo drásticamente los costos mientras mantienen el control total sobre la privacidad de los datos y el despliegue.

RAG Avanzado: Explicación de LongRAG, Self-RAG y GraphRAG

Generación Aumentada con Recuperación (RAG) ha evolucionado mucho más allá de la simple búsqueda de similitud vectorial. LongRAG, Self-RAG y GraphRAG representan la vanguardia de estas capacidades.

FLUX.1-dev es un modelo poderoso de generación de imágenes a partir de texto que produce resultados asombrosos, pero su requisito de memoria de 24GB+ hace que sea difícil de ejecutar en muchos sistemas. GGUF quantization of FLUX.1-dev ofrece una solución, reduciendo el uso de memoria en aproximadamente un 50% mientras se mantiene una excelente calidad de imagen.

Guía de configuración del tamaño de contexto de Docker Model Runner

Configuración de tamaños de contexto en Docker Model Runner es más compleja de lo que debería ser.