Ollama

Tengo una teoría que quiero probar: ¿utilizar todos los núcleos en un procesador Intel aumentaría la velocidad de los LLMs? Me molesta que el nuevo modelo gemma3 de 27 bits (gemma3:27b, 17 GB en ollama) no entre en los 16 GB de VRAM de mi GPU, y se ejecute parcialmente en el CPU.

Cómo Ollama maneja solicitudes en paralelo

Cuando el servidor Ollama recibe dos solicitudes al mismo tiempo, su comportamiento depende de su configuración y de los recursos del sistema disponibles.

DeepSeek’s primer generación de modelos de razonamiento con un rendimiento comparable al de OpenAI-o1, incluyendo seis modelos densos destilados de DeepSeek-R1 basados en Llama y Qwen.

Este cheatsheet de CLI de Ollama se centra en los comandos que usas cada día (ollama ls, ollama serve, ollama run, ollama ps, gestión de modelos y flujos de trabajo comunes), con ejemplos que puedes copiar y pegar.

No hace mucho tiempo se lanzó. Vamos a ponernos al día y pruebe cómo se comporta Mistral Small en comparación con otros LLMs.

Reranking es el segundo paso en Generación Aumentada de Recuperación (RAG) sistemas, justo entre Recuperar y Generar.

La comida deliciosa también es un placer para los ojos.
Pero en este post compararemos dos sistemas de búsqueda basados en IA, Farfalle y Perplexica.

¡Eso es muy emocionante!

En lugar de llamar a Copilot o Perplexity.ai y contarle al mundo lo que buscas, ahora puedes alojar un servicio similar en tu propio PC o laptop.

Cuando empecé a experimentar con LLMs, las interfaces de usuario para ellos estaban en desarrollo activo y ahora algunas de ellas son realmente buenas.

Recientemente hemos visto la liberación de varios nuevos LLMs. Tiempo emocionante. Vamos a probar y ver cómo se desempeñan al detectar falacias lógicas.

Aún así, existen algunos enfoques comunes para escribir buenos prompts de manera que los modelos de lenguaje no se confundan al intentar entender lo que deseas.

Comparando las capacidades de resumen de los LLM

Prueba de cómo se comportan los modelos con diferentes números de parámetros y cuantización.

Después de instalar ollama es mejor reconfigurar ollama para que los almacene en un nuevo lugar de inmediato. Así, después de que descarguemos un nuevo modelo, no se descargará en la ubicación antigua.

Ollama

Prueba: Cómo Ollama está utilizando el rendimiento de la CPU de Intel y los núcleos eficientes

Cómo Ollama maneja solicitudes en paralelo

Prueba de Deepseek-R1 en Ollama

Guía rápida de comandos de Ollama CLI: ls, serve, run, ps + comandos (actualización de 2026)

Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 y Phi - Prueba de modelos de lenguaje grande

Reclasificación con modelos de incrustación

Farfalle vs. Perplexica

Autohospedaje de Perplexica con Ollama

Frontends de LLM

Gemma2 vs Qwen2 vs Mistral Nemo vs...

Escribir prompts efectivos para LLMs

Comparando las capacidades de resumen de los LLM

Mover modelos de Ollama a una ubicación diferente