Ollama in Docker Compose mit GPU und persistenter Modell-Speicherung
Compose-first Ollama-Server mit GPU und Persistenz.
Ollama funktioniert hervorragend auf Bare Metal. Es wird noch interessanter, wenn man es wie einen Service behandelt: ein stabiler Endpunkt, fixierte Versionen, persistente Speicherung und eine GPU, die entweder verfügbar ist oder eben nicht.