Docker Model Runner vs. Ollama: Was ist die bessere Wahl?
Vergleichen Sie Docker Model Runner und Ollama für lokale LLMs
Lokales Ausführen großer Sprachmodelle (LLMs) ist aufgrund von Datenschutz, Kostenkontrolle und Offline-Fähigkeiten immer beliebter geworden. Die Landschaft veränderte sich im April 2025 erheblich, als Docker Docker Model Runner (DMR) einführte, seine offizielle Lösung für die Bereitstellung von KI-Modellen.
Jetzt konkurrieren drei Ansätze um die Aufmerksamkeit der Entwickler: Docksers native Model Runner, Drittanbieter-Containerlösungen (vLLM, TGI) und die eigenständige Ollama-Plattform.
Verständnis von Docker Model Runnern
Docker-basierte Model Runner nutzen Containerisierung, um LLM-Inference-Engines zusammen mit ihren Abhängigkeiten zu verpacken. Die Landschaft umfasst sowohl Docksers offizielle Lösung als auch Drittanbieter-Frameworks.
Docker Model Runner (DMR) - Offizielle Lösung
Im April 2025 führte Docker Docker Model Runner (DMR) ein, ein offizielles Produkt, das darauf abzielt, das Ausführen von KI-Modellen lokal mit Docksers Infrastruktur zu vereinfachen. Dies stellt Docksers Engagement dar, die Bereitstellung von KI-Modellen so nahtlos wie die Container-Bereitstellung zu gestalten.
Wichtige Merkmale von DMR:
- Nativ Docker-Integration: Nutzt vertraute Docker-Befehle (
docker model pull
,docker model run
,docker model package
) - OCI-Artifact-Verpackung: Modelle werden als OCI-Artifacts verpackt, was die Verteilung über Docker Hub und andere Registrierungen ermöglicht
- OpenAI-kompatible API: Drop-in-Ersatz für OpenAI-Endpunkte, vereinfacht die Integration
- GPU-Beschleunigung: Nativ GPU-Unterstützung ohne komplexe nvidia-docker-Konfiguration
- GGUF-Format-Unterstützung: Funktioniert mit beliebten quantisierten Modellformaten
- Docker Compose-Integration: Einfache Konfiguration und Bereitstellung von Modellen mit Standard-Docker-Tools
- Testcontainers-Unterstützung: Nahtlose Integration mit Test-Frameworks
Installation:
- Docker Desktop: Aktivieren Sie über den AI-Tab in den Einstellungen
- Docker Engine: Installieren Sie das
docker-model-plugin
-Paket
Beispielnutzung:
# Ein Modell von Docker Hub herunterladen
docker model pull ai/smollm2
# Inference durchführen
docker model run ai/smollm2 "Erklären Sie Docker Model Runner"
# Benutzerdefiniertes Modell verpacken
docker model package --gguf /path/to/model.gguf --push myorg/mymodel:latest
DMR arbeitet mit Google, Hugging Face und VMware Tanzu zusammen, um das KI-Modell-Ökosystem zu erweitern, das über Docker Hub verfügbar ist. Wenn Sie neu bei Docker sind oder eine Auffrischung der Docker-Befehle benötigen, bietet unser Docker Cheatsheet eine umfassende Anleitung zu wesentlichen Docker-Operationen.
Drittanbieter-Docker-Lösungen
Neben DMR umfasst das Ökosystem etablierte Frameworks:
- vLLM-Container: Hochdurchsatz-Inference-Server, optimiert für Batch-Verarbeitung
- Text Generation Inference (TGI): Hugging Faces produktionsbereite Lösung
- llama.cpp-Container: Leichte C++-Implementierung mit Quantisierung
- Benutzerdefinierte Container: Einbettung von PyTorch, Transformers oder proprietären Frameworks
Vorteile des Docker-Ansatzes
Flexibilität und Framework-Unabhängigkeit: Docker-Container können jeden LLM-Framework ausführen, von PyTorch bis ONNX Runtime, und geben Entwicklern die vollständige Kontrolle über den Inference-Stack.
Ressourcenisolierung: Jeder Container arbeitet in isolierten Umgebungen mit definierten Ressourcengrenzen (CPU, Speicher, GPU) und verhindert Ressourcenkonflikte bei Multi-Modell-Bereitstellungen.
Orchestrierungsunterstützung: Docker integriert sich nahtlos mit Kubernetes, Docker Swarm und Cloud-Plattformen für Skalierung, Lastausgleich und hohe Verfügbarkeit.
Versionskontrolle: Unterschiedliche Modellversionen oder Frameworks können auf demselben System ohne Abhängigkeitskonflikte koexistieren.
Nachteile des Docker-Ansatzes
Komplexität: Erfordert Verständnis von Containerisierung, Volume-Mounts, Netzwerkkonfiguration und GPU-Passthrough (nvidia-docker).
Overhead: Während minimal, fügt Docker eine dünne Abstraktionsschicht hinzu, die die Startzeit und den Ressourcenverbrauch leicht beeinflusst.
Konfigurationsaufwand: Jede Bereitstellung erfordert eine sorgfältige Konfiguration von Dockerfiles, Umgebungsvariablen und Laufzeitparametern.
Verständnis von Ollama
Ollama ist eine speziell entwickelte Anwendung zum Ausführen von LLMs lokal, die mit Einfachheit als ihr Kernprinzip entwickelt wurde. Es bietet:
- Natives Binary für Linux, macOS und Windows
- Integrierte Modellbibliothek mit Ein-Kommando-Installation
- Automatische GPU-Erkennung und Optimierung
- RESTful API, kompatibel mit dem OpenAI-Format
- Modellkontext- und Zustandsverwaltung
Vorteile von Ollama
Einfachheit: Die Installation ist einfach (curl | sh
auf Linux), und das Ausführen von Modellen erfordert nur ollama run llama2
. Für eine umfassende Liste der Ollama-Befehle und Nutzungsmuster, besuchen Sie unseren Ollama Cheatsheet.
Optimierte Leistung: Auf llama.cpp aufgebaut, ist Ollama für Inference-Geschwindigkeit mit Quantisierungsunterstützung (Q4, Q5, Q8) hochoptimiert.
Modellverwaltung: Integriertes Modellregister mit Befehlen wie ollama pull
, ollama list
und ollama rm
vereinfacht den Modelllebenszyklus.
Entwicklererfahrung: Saubere API, umfangreiche Dokumentation und wachsendes Ökosystem von Integrationen (LangChain, CrewAI usw.). Die Vielseitigkeit von Ollama erstreckt sich auf spezielle Anwendungsfälle wie Neuordnung von Textdokumenten mit Embedding-Modellen.
Ressourceneffizienz: Automatisches Speichermanagement und Modellentladung bei Leerlauf spart Systemressourcen.
Nachteile von Ollama
Framework-Bindung: Unterstützt hauptsächlich llama.cpp-kompatible Modelle, was die Flexibilität für Frameworks wie vLLM oder benutzerdefinierte Inference-Engines einschränkt.
Begrenzte Anpassung: Fortgeschrittene Konfigurationen (benutzerdefinierte Quantisierung, spezifische CUDA-Streams) sind in Docker-Umgebungen weniger zugänglich.
Orchestrierungsherausforderungen: Obwohl Ollama in Containern ausgeführt werden kann, fehlt die native Unterstützung für fortschrittliche Orchestrierungsfunktionen wie horizontale Skalierung.
Leistungsvergleich
Inference-Geschwindigkeit
Docker Model Runner: Die Leistung ist mit Ollama vergleichbar, da beide GGUF-quantisierte Modelle unterstützen. Für Llama 2 7B (Q4) sind 20-30 Tokens/Sekunde auf CPU und 50-80 Tokens/Sekunde auf Mittelklasse-GPUs zu erwarten. Minimaler Container-Overhead.
Ollama: Nutzt den hochoptimierten llama.cpp-Backend mit effizienter Quantisierung. Für Llama 2 7B (Q4) sind 20-30 Tokens/Sekunde auf CPU und 50-80 Tokens/Sekunde auf Mittelklasse-GPUs zu erwarten. Kein Container-Overhead. Für Details darüber, wie Ollama parallele Anfragen verwaltet, siehe unsere Analyse zu wie Ollama parallele Anfragen verarbeitet.
Docker (vLLM): Optimiert für Batch-Verarbeitung mit kontinuierlicher Batch-Verarbeitung. Einzelne Anfragen können etwas langsamer sein, aber die Durchsatzleistung übertrifft sich unter hoher gleichzeitiger Last (100+ Tokens/Sekunde pro Modell mit Batching).
Docker (TGI): Ähnlich wie vLLM mit hervorragender Batching-Leistung. Fügt Funktionen wie Streaming und Token-für-Token-Generierung hinzu.
Speichernutzung
Docker Model Runner: Ähnlich wie Ollama mit automatischer Modellladung. GGUF Q4-Modelle verwenden typischerweise 4-6GB RAM. Container-Overhead ist minimal (einige MB).
Ollama: Automatisches Speichermanagement lädt Modelle bei Bedarf und entlädt sie bei Leerlauf. Ein 7B Q4-Modell verwendet typischerweise 4-6GB RAM. Am effizientesten für Einzell-Modell-Szenarien.
Traditionelle Docker-Lösungen: Der Speicher hängt vom Framework ab. vLLM weist GPU-Speicher für optimale Leistung vor, während PyTorch-basierte Container mehr RAM für Modellgewichte und KV-Cache verwenden können (8-14GB für 7B-Modelle).
Startzeit
Docker Model Runner: Container-Startzeit fügt ~1 Sekunde hinzu, plus Modellladung (2-5 Sekunden). Gesamtzeit: 3-6 Sekunden für mittelgroße Modelle.
Ollama: Nahezu sofortiger Start mit Modellladung, die 2-5 Sekunden für mittelgroße Modelle dauert. Schnellste Kaltstart-Erfahrung.
Traditionelle Docker-Lösungen: Container-Startzeit fügt 1-3 Sekunden hinzu, plus Modellladezeit. Vorwärmen von Containern mildert dies in Produktionsbereitstellungen.
Docker Model Runner vs Ollama: Direkter Vergleich
Mit Docksers offizieller Einführung in den LLM-Runner-Raum wird der Vergleich interessanter. Hier ist ein Kopf-an-Kopf-Vergleich von DMR und Ollama:
Funktion | Docker Model Runner | Ollama |
---|---|---|
Installation | Docker Desktop AI-Tab oder docker-model-plugin |
Einfacher Befehl: curl | sh |
Befehlsstil | docker model pull/run/package |
ollama pull/run/list |
Modellformat | GGUF (OCI-Artifacts) | GGUF (nativ) |
Modellverteilung | Docker Hub, OCI-Registrierungen | Ollama-Registrierung |
GPU-Einrichtung | Automatisch (einfacher als traditioneller Docker) | Automatisch |
API | OpenAI-kompatibel | OpenAI-kompatibel |
Docker-Integration | Nativ (ist Docker) | Kann in Docker ausgeführt werden, wenn benötigt |
Compose-Unterstützung | Nativ | Über Docker-Image |
Lernkurve | Niedrig (für Docker-Nutzer) | Am niedrigsten (für alle) |
Ökosystem-Partner | Google, Hugging Face, VMware | LangChain, CrewAI, Open WebUI |
Beste Verwendung | Docker-native Workflows | Standalone-Einfachheit |
Wichtige Erkenntnis: DMR bringt Docker-Workflows zur LLM-Bereitstellung, während Ollama framework-unabhängig bleibt und eine einfachere eigenständige Operation bietet. Ihre bestehende Infrastruktur ist wichtiger als technische Unterschiede.
Anwendungsfall-Empfehlungen
Wählen Sie Docker Model Runner, wenn
- Docker-first-Workflow: Ihr Team verwendet Docker bereits umfangreich
- Einheitliche Werkzeuge: Sie möchten ein Tool (Docker) für Container und Modelle
- OCI-Artifact-Verteilung: Sie benötigen Integration mit Unternehmensregistern
- Testcontainers-Integration: Sie testen KI-Funktionen in CI/CD
- Docker Hub-Präferenz: Sie bevorzugen Modellverteilung über vertraute Kanäle
Wählen Sie Ollama, wenn
- Schnelle Prototypenerstellung: Schnelle Experimente mit verschiedenen Modellen
- Framework-unabhängig: Nicht an das Docker-Ökosystem gebunden
- Absolute Einfachheit: Minimale Konfiguration und Wartungsaufwand
- Einzelserver-Deployments: Ausführung auf Laptops, Arbeitsstationen oder einzelnen VMs
- Umfangreiche Modellbibliothek: Zugriff auf eine umfangreiche vorkonfigurierte Modellregistrierung
Wählen Sie Drittanbieter-Docker-Lösungen, wenn
- Produktionsbereitstellungen: Bedarf an fortgeschrittener Orchestrierung und Überwachung
- Multi-Modell-Serving: Ausführung verschiedener Frameworks (vLLM, TGI) gleichzeitig
- Kubernetes-Orchestrierung: Skalierung über Cluster mit Lastausgleich
- Eigene Frameworks: Verwendung von Ray Serve oder proprietären Inferenz-Engines
- Strenge Ressourcenkontrolle: Durchsetzung granularer CPU/GPU-Grenzen pro Modell
Hybrid-Ansätze: Das Beste aus beiden Welten
Sie sind nicht auf einen einzigen Ansatz beschränkt. Betrachten Sie diese Hybridstrategien:
Option 1: Docker Model Runner + Traditionelle Container
Verwenden Sie DMR für Standardmodelle und Drittanbieter-Container für spezialisierte Frameworks:
# Laden eines Standardmodells mit DMR
docker model pull ai/llama2
# Ausführen von vLLM für Hochdurchsatz-Szenarien
docker run --gpus all vllm/vllm-openai
Option 2: Ollama in Docker
Führen Sie Ollama innerhalb von Docker-Containern für Orchestrierungsfähigkeiten aus:
docker run -d \
--name ollama \
--gpus all \
-v ollama:/root/.ollama \
-p 11434:11434 \
ollama/ollama
Dies bietet:
- Ollamas intuitive Modellverwaltung
- Dockers Orchestrierungs- und Isolationsfähigkeiten
- Kubernetes-Deployment mit Standardmanifesten
Option 3: Mix and Match nach Anwendungsfall
- Entwicklung: Ollama für schnelle Iteration
- Staging: Docker Model Runner für Integrationstests
- Produktion: vLLM/TGI in Kubernetes für Skalierung
API-Kompatibilität
Alle modernen Lösungen konvergieren zu OpenAI-kompatiblen APIs, was die Integration vereinfacht:
Docker Model Runner API: OpenAI-kompatible Endpunkte werden automatisch bereitgestellt, wenn Modelle ausgeführt werden. Keine zusätzliche Konfiguration erforderlich.
# Modell wird mit automatisch freigelegtem API ausgeführt
docker model run ai/llama2
# Verwenden Sie OpenAI-kompatiblen Endpunkt
curl http://localhost:8080/v1/chat/completions -d '{
"model": "llama2",
"messages": [{"role": "user", "content": "Warum ist der Himmel blau?"}]
}'
Ollama API: OpenAI-kompatible Endpunkte machen es zu einem direkten Ersatz für Anwendungen, die OpenAIs SDK verwenden. Streaming wird vollständig unterstützt.
curl http://localhost:11434/api/generate -d '{
"model": "llama2",
"prompt": "Warum ist der Himmel blau?"
}'
Drittanbieter-Docker-APIs: vLLM und TGI bieten OpenAI-kompatible Endpunkte, während benutzerdefinierte Container proprietäre APIs implementieren können.
Die Konvergenz auf OpenAI-Kompatibilität bedeutet, dass Sie zwischen Lösungen mit minimalen Codeänderungen wechseln können.
Ressourcenmanagement
GPU-Beschleunigung
Docker Model Runner: Nativer GPU-Support ohne komplexe nvidia-docker-Konfiguration. Erkennt und verwendet automatisch verfügbare GPUs und vereinfacht so die Docker-GPU-Erfahrung im Vergleich zu traditionellen Containern.
# GPU-Beschleunigung funktioniert automatisch
docker model run ai/llama2
Ollama: Automatische GPU-Erkennung auf CUDA-fähigen NVIDIA-GPUs. Keine Konfiguration erforderlich, außer der Treiberinstallation.
Traditionelle Docker-Container: Erfordert nvidia-docker-Runtime und explizite GPU-Zuweisung:
docker run --gpus all my-llm-container
CPU-Fallback
Beide greifen bei nicht verfügbaren GPUs auf CPU-Inferenz zurück, wobei die Leistung jedoch deutlich abnimmt (5-10 Mal langsamer für große Modelle). Für Einblicke in die CPU-only-Leistung auf modernen Prozessoren lesen Sie unseren Test zu wie Ollama Intel CPU Performance und Efficient Cores nutzt.
Multi-GPU-Unterstützung
Ollama: Unterstützt Tensor-Parallelität über mehrere GPUs für große Modelle.
Docker: Abhängig vom Framework. vLLM und TGI unterstützen Multi-GPU-Inferenz mit richtiger Konfiguration.
Community und Ökosystem
Docker Model Runner: Gestartet im April 2025 mit starker Unternehmensunterstützung. Partnerschaften mit Google, Hugging Face und VMware Tanzu AI Solutions gewährleisten breite Modellverfügbarkeit. Integration in Dockers riesige Entwicklercommunity (Millionen von Nutzern) bietet sofortigen Ökosystemzugriff. Community-spezifische Ressourcen werden als neues Produkt noch aufgebaut.
Ollama: Schnell wachsende Community mit 50K+ GitHub-Sternen. Starke Integration in das Ökosystem (LangChain, LiteLLM, Open WebUI, CrewAI) und aktive Discord-Community. Umfangreiche Drittanbieter-Tools und Tutorials verfügbar. Ausführlichere Dokumentation und Community-Ressourcen. Für einen umfassenden Überblick über verfügbare Schnittstellen sehen Sie unsere Anleitung zu Open-Source-Chat-UIs für lokale Ollama-LLM-Instanzen. Wie bei jedem schnell wachsenden Open-Source-Projekt ist es wichtig, die Projektentwicklung zu überwachen - lesen Sie unsere Analyse zu ersten Anzeichen von Ollama-Enshittification, um potenzielle Bedenken zu verstehen.
Drittanbieter-Docker-Lösungen: vLLM und TGI haben ausgereifte Ökosysteme mit Unternehmensunterstützung. Umfangreiche Produktionsfallstudien, Optimierungsleitfäden und Bereitstellungsmuster von Hugging Face und Community-Mitwirkenden.
Kostenüberlegungen
Docker Model Runner: Kostenlos mit Docker Desktop (privat/bildungsbezogen) oder Docker Engine. Docker Desktop erfordert ein Abonnement für größere Organisationen (250+ Mitarbeiter oder 10M+ Umsatz). Modelle, die über Docker Hub verteilt werden, folgen Dockers Registrierungspreisen (kostenlose öffentliche Repos, private Repos kostenpflichtig).
Ollama: Vollständig kostenlos und Open-Source ohne Lizenzkosten unabhängig von der Organisationsgröße. Ressourcenkosten hängen nur von der Hardware ab.
Drittanbieter-Docker-Lösungen: Kostenlos für Open-Source-Frameworks (vLLM, TGI). Mögliche Kosten für Container-Orchestrierungsplattformen (ECS, GKE) und privaten Registrierungsspeicher.
Sicherheitsüberlegungen
Docker Model Runner: Nutzt Dockers Sicherheitsmodell mit Container-Isolierung. Modelle, die als OCI-Artifacts verpackt sind, können gescannt und signiert werden. Verteilung über Docker Hub ermöglicht Zugriffskontrolle und Schwachstellen-Scans für Unternehmensnutzer.
Ollama: Wird als lokaler Dienst mit API ausgeführt, die standardmäßig auf localhost freigegeben ist. Netzwerkfreigabe erfordert explizite Konfiguration. Modellregistrierung ist vertrauenswürdig (Ollama-kuriert), was Supply-Chain-Risiken reduziert.
Traditionelle Docker-Lösungen: Netzwerkisolierung ist eingebaut. Container-Sicherheitsscans (Snyk, Trivy) und Image-Signierung sind Standardpraktiken in Produktionsumgebungen.
Alle Lösungen erfordern Aufmerksamkeit für:
- Modellherkunft: Nicht vertrauenswürdige Modelle können schädlichen Code oder Hintertüren enthalten
- API-Authentifizierung: Implementieren Sie Authentifizierung/Autorisierung in Produktionsbereitstellungen
- Rate Limiting: Verhindern Sie Missbrauch und Ressourcenerschöpfung
- Netzwerkfreigabe: Stellen Sie sicher, dass APIs nicht versehentlich ins Internet freigegeben werden
- Datenschutz: Modelle verarbeiten sensible Daten; stellen Sie die Einhaltung von Datenschutzvorschriften sicher
Migrationspfade
Von Ollama zu Docker Model Runner
Die GGUF-Unterstützung von Docker Model Runner macht die Migration einfach:
- Aktivieren Sie Docker Model Runner in Docker Desktop oder installieren Sie
docker-model-plugin
- Konvertieren Sie Modellreferenzen:
ollama run llama2
→docker model pull ai/llama2
unddocker model run ai/llama2
- Aktualisieren Sie API-Endpunkte von
localhost:11434
auf DMR-Endpunkt (typischerweiselocalhost:8080
) - Beide verwenden OpenAI-kompatible APIs, sodass der Anwendungscode nur minimale Änderungen erfordert
Von Docker Model Runner zu Ollama
Wechsel zu Ollama für einfachere Standalone-Betrieb:
- Installieren Sie Ollama:
curl -fsSL https://ollama.ai/install.sh | sh
- Laden Sie äquivalente Modelle:
ollama pull llama2
- Aktualisieren Sie API-Endpunkte auf Ollamas
localhost:11434
- Testen Sie mit
ollama run llama2
, um die Funktionalität zu überprüfen
Von traditionellen Docker-Containern zu DMR
Vereinfachen Sie Ihre Docker-LLM-Konfiguration:
- Aktivieren Sie Docker Model Runner
- Ersetzen Sie benutzerdefinierte Dockerfiles durch
docker model pull
-Befehle - Entfernen Sie nvidia-docker-Konfiguration (DMR verwaltet GPU automatisch)
- Verwenden Sie
docker model run
anstelle komplexerdocker run
-Befehle
Von jeder Lösung zu Ollama in Docker
Best-of-both-worlds-Ansatz:
docker pull ollama/ollama
- Ausführen:
docker run -d --gpus all -v ollama:/root/.ollama -p 11434:11434 ollama/ollama
- Verwenden Sie Ollama-Befehle wie gewohnt:
docker exec -it ollama ollama pull llama2
- Kombinieren Sie Docker-Orchestrierung mit Ollama-Einfachheit
Überwachung und Beobachtbarkeit
Ollama: Grundlegende Metriken über API (/api/tags
, /api/ps
). Drittanbieter-Tools wie Open WebUI bieten Dashboards.
Docker: Volle Integration mit Prometheus, Grafana, ELK-Stack und Cloud-Monitoring-Diensten. Containermetriken (CPU, Speicher, GPU) sind leicht verfügbar.
Fazit
Die Landschaft der lokalen LLM-Bereitstellung hat sich mit der Einführung von Docker Model Runner (DMR) durch Docker im Jahr 2025 erheblich weiterentwickelt. Die Wahl hängt nun von Ihren spezifischen Anforderungen ab:
- Für Entwickler, die Docker-Integration suchen: DMR bietet native Docker-Workflow-Integration mit
docker model
-Befehlen - Für maximale Einfachheit: Ollama bleibt die einfachste Lösung mit seiner One-Command-Modellverwaltung
- Für Produktion und Unternehmen: Sowohl DMR als auch Drittanbieterlösungen (vLLM, TGI) in Docker bieten Orchestrierung, Überwachung und Skalierbarkeit
- Für das Beste aus beiden Welten: Führen Sie Ollama in Docker-Containern aus, um Einfachheit mit Produktionsinfrastruktur zu kombinieren
Die Einführung von DMR verringert die Lücke zwischen Docker und Ollama in Bezug auf Benutzerfreundlichkeit. Ollama bleibt jedoch die einfachste Lösung für schnelle Prototypenerstellung, während DMR für Teams, die bereits in Docker-Workflows investiert sind, ideal ist. Beide Ansätze werden aktiv weiterentwickelt, sind produktionsbereit und das Ökosystem ist ausgereift genug, dass der Wechsel zwischen ihnen relativ schmerzfrei ist.
Bottom Line: Wenn Sie Docker bereits umfangreich nutzen, ist DMR die natürliche Wahl. Wenn Sie die absolut einfachste Erfahrung unabhängig von der Infrastruktur wünschen, wählen Sie Ollama.
Nützliche Links
Docker Model Runner
- Docker Model Runner Offizielle Seite
- Docker Model Runner Dokumentation
- Docker Model Runner Anleitung zum Einstieg
- Docker Model Runner Ankündigungsblog
Ollama
Andere Docker-Lösungen
Andere Nützliche Artikel
- Ollama Cheatsheet
- Docker Cheatsheet
- Wie Ollama parallele Anfragen verarbeitet
- Test: Wie Ollama Intel CPU Performance und Efficient Cores nutzt
- Rangfolge von Textdokumenten mit Ollama und Qwen3 Embedding-Modell - in Go
- Open-Source Chat-Oberflächen für LLMs auf lokalen Ollama-Instanzen
- Erste Anzeichen der Ollama-Enshittification