Ollama

Autogestión de Cognee: Pruebas de rendimiento de LLM

Cognee es un marco de Python para construir grafos de conocimiento a partir de documentos utilizando LLMs. ¿Pero funciona con modelos autohospedados?

BAML vs Instructor: Salidas de LLM estructuradas

Cuando se trabaja con Modelos de Lenguaje Grande en producción, obtener salidas estructuradas y seguras en cuanto al tipo es crítico.
Dos marcos populares — BAML y Instructor — toman enfoques diferentes para resolver este problema.

Elegir el LLM adecuado para Cognee: Configuración local de Ollama

Elegir el Mejor LLM para Cognee requiere equilibrar la calidad de construcción de gráficos, las tasas de alucinación y las restricciones de hardware.
Cognee destaca al utilizar modelos grandes con baja alucinación (32B+) mediante Ollama, pero las opciones de tamaño medio funcionan para configuraciones más ligeras.

Usar la API de búsqueda web de Ollama en Python

La biblioteca de Python de Ollama ahora incluye capacidades nativas de búsqueda web de OLLama. Con solo unas pocas líneas de código, puedes mejorar tus LLMs locales con información en tiempo real desde la web, reduciendo las alucinaciones e incrementando la precisión.

Usando la API de búsqueda web de Ollama en Go

La API de búsqueda web de Ollama le permite mejorar los LLM locales con información en tiempo real de la web. Esta guía le muestra cómo implementar capacidades de búsqueda web en Go, desde llamadas simples a la API hasta agentes de búsqueda completos.

Anfitrionado de LLM Local: Guía Completa 2025 - Ollama, vLLM, LocalAI, Jan, LM Studio y Más

Despliegue local de LLMs ha adquirido popularidad cada vez mayor a medida que los desarrolladores y organizaciones buscan mayor privacidad, menor latencia y mayor control sobre su infraestructura de IA.

Infraestructura de IA en hardware de consumo

La democratización de la IA está aquí. Con LLMs de código abierto como Llama 3, Mixtral y Qwen ahora rivales de modelos propietarios, los equipos pueden construir una poderosa infraestructura de IA usando hardware de consumo - reduciendo costos mientras se mantiene el control total sobre la privacidad de los datos y la implementación.

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Comparación de rendimiento de Ollama

Investigué algunos interesantes tests de rendimiento del modelo GPT-OSS 120b ejecutándose en Ollama en tres plataformas diferentes: NVIDIA DGX Spark, Mac Studio y RTX 4080. El modelo GPT-OSS 120b del repositorio Ollama tiene un tamaño de 65 GB, lo que significa que no cabe en los 16 GB de VRAM de una RTX 4080 (ni en la más reciente RTX 5080).

Docker Model Runner vs Ollama: ¿Cuál elegir?

Running large language models (LLMs) locally ha ganado popularidad en los últimos tiempos por razones de privacidad, control de costos y capacidades fuera de línea. El panorama cambió significativamente en abril de 2025 cuando Docker introdujo Docker Model Runner (DMR), su solución oficial para la implementación de modelos de IA.

Clientes de Go para Ollama: comparación de SDK y ejemplos de Qwen3/GPT-OSS

Este guía proporciona una visión general completa de los disponibles SDKs de Go para Ollama y compara sus conjuntos de características.

Aquí hay una comparación entre Qwen3:30b y GPT-OSS:20b enfocada en el seguimiento de instrucciones y parámetros de rendimiento, especificaciones y velocidad:

Integración de Ollama con Python: Ejemplos de API REST y Cliente en Python

En este artículo, exploraremos dos formas de conectar su aplicación Python con Ollama: 1. A través del API REST HTTP; 2. A través de la biblioteca oficial de Ollama para Python.

Problemas de salida estructurada de Ollama GPT-OSS

Los modelos GPT-OSS de Ollama tienen problemas recurrentes al manejar salidas estructuradas, especialmente cuando se usan con marcos como LangChain, OpenAI SDK, vllm y otros.

Limitar LLMs con salida estructurada: Ollama, Qwen3 & Python o Go

Modelos de Lenguaje Grande (LLMs) son poderosos, pero en producción raramente queremos párrafos libres. En su lugar, queremos datos predecibles: atributos, hechos u objetos estructurados que puedas alimentar en una aplicación. Eso es Salida Estructurada de LLM.

Modelo de programación de asignación de memoria en la nueva versión de Ollama - v0.12.1

Aquí estoy comparando cuánta VRAM asigna la nueva versión de Ollama al modelo con la versión anterior de Ollama. La nueva versión es peor.

Enshittificación de Ollama: los primeros signos

Ollama ha pasado rápidamente a ser una de las herramientas más populares para ejecutar LLMs localmente.
Su CLI simple y su gestión de modelos optimizada han hecho que sea una opción favorita para desarrolladores que desean trabajar con modelos de IA fuera de la nube.
Pero, al igual que con muchas plataformas prometedoras, ya hay señales de Enshittification: