LLM

Ollama in Docker Compose con GPU e archiviazione persistente dei modelli

Ollama in Docker Compose con GPU e archiviazione persistente dei modelli

Server Ollama con approccio compose-first, GPU e persistenza.

Ollama funziona egregiamente su hardware nudo (bare metal). Diventa ancora più interessante quando lo si tratta come un servizio: un endpoint stabile, versioni bloccate, archiviazione persistente e una GPU che è disponibile o non lo è.

Quickstart di llama.cpp con CLI e Server

Quickstart di llama.cpp con CLI e Server

Come installare, configurare e utilizzare OpenCode

Torno sempre a llama.cpp per l’inferenza locale — ti dà il controllo che Ollama e altri astraggono, e funziona semplicemente. È facile eseguire interattivamente i modelli GGUF con llama-cli o esporre un’API HTTP OpenAI-compatibile con llama-server.