Ollama

Ecco il confronto tra quanta VRAM la nuova versione di Ollama alloca per il modello rispetto alla versione precedente di Ollama. La nuova versione è peggio.

Enshittification di Ollama - I primi segnali

Ollama ha rapidamente raggiunto uno dei posti più popolari tra gli strumenti per eseguire i modelli linguistici localmente. La sua semplice CLI e la gestione semplificata dei modelli l’hanno resa un’opzione di riferimento per gli sviluppatori che desiderano lavorare con i modelli AI al di fuori del cloud. Ma, come spesso accade con molte piattaforme promettenti, ci sono già segnali di Enshittification:

Interfacce utente chat per istanze locali di Ollama

Ollama ospitato localmente permette di eseguire modelli linguistici di grandi dimensioni sulla propria macchina, ma utilizzarlo tramite riga di comando non è molto user-friendly. Ecco alcuni progetti open-source che offrono interfacce stile ChatGPT che si collegano a un Ollama locale.

Riordinare i documenti con Ollama e modello Qwen3 Reranker - in Go

Poiché l’Ollama standard non dispone di un’API di reranking diretta, sarà necessario implementare reranking utilizzando Qwen3 Reranker in GO generando gli embedding per le coppie query-documento e valutandoli.

Confronto della qualità della traduzione delle pagine di Hugo - LLM su Ollama

In questo test sto confrontando come diversi LLM ospitati su Ollama traducono una pagina Hugo dall’inglese al tedesco. Le tre pagine che ho testato erano su argomenti diversi, avevano un bel markdown con una certa struttura: intestazioni, elenchi, tabelle, link, ecc.

Riordinare i testi con Ollama e Qwen3 Embedding LLM - in Go

Questo piccolo Esempio di codice Go per il rirango è che chiama Ollama per generare embedding per la query e per ogni documento candidato, poi ordinando in ordine discendente per similarità coseno.

Modelli Qwen3 Embedding & Reranker su Ollama: Prestazioni all'avanguardia

I modelli Qwen3 Embedding e Reranker sono le ultime release della famiglia Qwen, specificamente progettati per compiti avanzati di embedding del testo, recupero e rirango.

Prestazioni degli LLM e canali PCIe: considerazioni chiave

Come le lane PCIe influenzano le prestazioni degli LLM? Dipende dal compito. Per l’addestramento e l’inferenza multi-GPU, la riduzione delle prestazioni è significativa.

Converti il contenuto HTML in Markdown utilizzando LLM e Ollama

Nella libreria dei modelli Ollama ci sono modelli in grado di convertire contenuti HTML in Markdown, che è utile per compiti di conversione del contenuto.

Ecco la traduzione del contenuto della pagina Hugo dallo pseudocodice in italiano, mantenendo tutte le specifiche tecniche e gli elementi Hugo originali:

Will elencare qui alcuni strumenti di coding assistiti da AI e AI Coding Assistants con i loro lati positivi.

Test: Come Ollama utilizza le prestazioni del processore Intel e i core efficienti

Ho un’idea da testare: se l’utilizzo di tutti i core su un processore Intel aumenterebbe la velocità degli LLM? Mi sta infastidendo il fatto che il nuovo modello gemma3 27 bit (gemma3:27b, 17 GB su ollama) non entra nei 16 GB di VRAM della mia GPU e viene eseguito parzialmente sul CPU.

Come Ollama Gestisce le Richieste Parallele

Quando il server Ollama riceve due richieste contemporaneamente, il suo comportamento dipende dalla sua configurazione e dalle risorse del sistema disponibili.

DeepSeek’s prima generazione di modelli di ragionamento con prestazioni paragonabili a quelle di OpenAI-o1, inclusi sei modelli densi distillati da DeepSeek-R1 basati su Llama e Qwen.

Ecco l’elenco e gli esempi dei comandi più utili di Ollama (Ollama commands cheatsheet) L’ho compilato tempo fa, ultima aggiornamento a gennaio 2026. Spero che sarà anche utile per te.

Non molto tempo fa è stato rilasciato. Andiamo a rivedere e
testa come si comporta Mistral Small rispetto ad altri LLM.

Reranking è un secondo passo nella Generazione Assistita dal Recupero (RAG) sistemi, proprio tra il Recupero e la Generazione.

Ollama

Modello di allocazione della memoria per la pianificazione nella nuova versione di Ollama - v0.12.1

Enshittification di Ollama - I primi segnali

Interfacce utente chat per istanze locali di Ollama

Riordinare i documenti con Ollama e modello Qwen3 Reranker - in Go

Confronto della qualità della traduzione delle pagine di Hugo - LLM su Ollama

Riordinare i testi con Ollama e Qwen3 Embedding LLM - in Go

Modelli Qwen3 Embedding & Reranker su Ollama: Prestazioni all'avanguardia

Prestazioni degli LLM e canali PCIe: considerazioni chiave

Converti il contenuto HTML in Markdown utilizzando LLM e Ollama

Confronto tra assistenti di codifica AI

Test: Come Ollama utilizza le prestazioni del processore Intel e i core efficienti

Come Ollama Gestisce le Richieste Parallele

Testare Deepseek-R1 su Ollama

Ollama Cheatsheet - comandi più utili - aggiornamento 2026

Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 e Phi - Test con LLM

Riordinamento con modelli di embedding