Ollama

Ollamas Python-Bibliothek umfasst nun native OLlama Websuche-Funktionen. Mit nur wenigen Codezeilen können Sie Ihre lokalen LLMs mit Echtzeitinformationen aus dem Web erweitern, um Halluzinationen zu reduzieren und die Genauigkeit zu verbessern.

Verwendung der Ollama Web Search API in Go

Ollamas Web-Search-API ermöglicht es Ihnen, lokale LLMs mit Echtzeit-Webinformationen zu erweitern. Diese Anleitung zeigt Ihnen, wie Sie Web-Suchfunktionen in Go implementieren, von einfachen API-Aufrufen bis hin zu vollwertigen Suchagenten.

Lokales LLM-Hosting: Komplettführer 2025 - Ollama, vLLM, LocalAI, Jan, LM Studio & Mehr

Lokale Bereitstellung von LLMs hat an Beliebtheit zugenommen, da Entwickler und Organisationen eine verbesserte Privatsphäre, reduzierte Latenz und eine größere Kontrolle über ihre KI-Infrastruktur anstreben.

Die Demokratisierung von KI ist da. Mit Open-Source-LLMs wie Llama 3, Mixtral und Qwen, die nun mit proprietären Modellen mithalten, können Teams leistungsstarke KI-Infrastruktur mit Consumer-Hardware aufbauen - Kosten senken, während sie die vollständige Kontrolle über Datenschutz und Bereitstellung behalten.

NVIDIA DGX Spark vs. Mac Studio vs. RTX-4080: Ollama-Leistungsvergleich

Ich habe einige interessante Leistungsuntersuchungen zu GPT-OSS 120b ausgegraben, das auf Ollama auf drei verschiedenen Plattformen läuft: NVIDIA DGX Spark, Mac Studio und RTX 4080. Das GPT-OSS 120b-Modell aus der Ollama-Bibliothek wiegt 65 GB, was bedeutet, dass es nicht in die 16 GB VRAM einer RTX 4080 (oder der neueren RTX 5080) passt.

Docker Model Runner vs. Ollama: Was ist die bessere Wahl?

Lokales Ausführen großer Sprachmodelle (LLMs) ist aufgrund von Datenschutz, Kostenkontrolle und Offline-Fähigkeiten immer beliebter geworden. Die Landschaft veränderte sich im April 2025 erheblich, als Docker Docker Model Runner (DMR) einführte, seine offizielle Lösung für die Bereitstellung von KI-Modellen.

Ollama-Clients für Go: SDK-Vergleich und Beispiele für Qwen3/GPT-OSS

Dieser Leitfaden bietet einen umfassenden Überblick über verfügbare Go SDKs für Ollama und vergleicht deren Funktionsumfänge.

Hier ist ein Vergleich zwischen Qwen3:30b und GPT-OSS:20b mit Fokus auf Befolgung von Anweisungen und Leistungsparametern, Spezifikationen und Geschwindigkeit:

Integration von Ollama mit Python: Beispiele für REST-API und Python-Client

In diesem Beitrag werden wir zwei Möglichkeiten erkunden, Ihre Python-Anwendung mit Ollama zu verbinden: 1. Über die HTTP REST API; 2. Über die offizielle Ollama Python-Bibliothek.

Probleme mit strukturierten Ausgaben in Ollama GPT-OSS

Ollamas GPT-OSS-Modelle haben wiederkehrende Probleme bei der Handhabung strukturierter Ausgaben, insbesondere bei der Verwendung mit Frameworks wie LangChain, OpenAI SDK, vllm und anderen.

Einschränkung von LLMs mit strukturierten Ausgaben: Ollama, Qwen3 & Python oder Go

Große Sprachmodelle (LLMs) sind leistungsfähig, aber in der Produktion wollen wir selten frei formulierte Absätze. Stattdessen wollen wir vorhersehbare Daten: Attribute, Fakten oder strukturierte Objekte, die Sie in eine Anwendung einspeisen können. Das ist LLM-Strukturierte Ausgabe.

Speicherzuweisungsmodellplanung in der neuen Version von Ollama - v0.12.1

Hier vergleiche ich, wie viel VRAM die neue Version von Ollama für das Modell zuweist (https://www.glukhov.org/de/post/2025/09/memory-allocation-in-ollama-new-version/ “Ollama VRAM-Zuweisung”) im Vergleich zur vorherigen Version. Die neue Version ist schlechter.

Ollama Enshittification - die ersten Anzeichen

Ollama hat sich schnell zu einem der beliebtesten Tools zum lokalen Ausführen von LLMs entwickelt. Seine einfache CLI und der optimierte Modellmanagement haben es zu einer ersten Wahl für Entwickler gemacht, die mit KI-Modellen außerhalb der Cloud arbeiten möchten. Doch wie bei vielen vielversprechenden Plattformen gibt es bereits Anzeichen für Enshittification:

Chat-Oberflächen für lokale Ollama-Instanzen

Lokal gehostetes Ollama ermöglicht den Betrieb großer Sprachmodelle auf Ihrem eigenen Gerät, aber die Nutzung über die Kommandozeile ist nicht besonders benutzerfreundlich. Hier sind mehrere Open-Source-Projekte, die ChatGPT-ähnliche Oberflächen bieten, die mit einem lokalen Ollama verbunden sind.

Dokumente mit Ollama und Qwen3 Reranker-Modell neu bewerten – in Go

Da das standardmäßige Ollama keinen direkten Rerank-API-Anschluss hat, müssen Sie Reranking mit Qwen3 Reranker in GO implementieren, indem Sie Embeddings für Abfrage-Dokument-Paare generieren und sie bewerten.

Vergleich der Qualität der Hugo-Seitentranslation – LLMs auf Ollama

In diesem Test vergleiche ich, wie verschiedene LLMs, die auf Ollama gehostet werden, Hugo-Seiten von Englisch ins Deutsche übersetzen: Vergleich, wie verschiedene LLMs, die auf Ollama gehostet werden, Hugo-Seiten übersetzen. Drei Seiten, die ich getestet habe, befassen sich mit unterschiedlichen Themen und enthalten einige schöne Markdown-Elemente mit Struktur: Überschriften, Listen, Tabellen, Links usw.

Ollama

Verwendung der Ollama Web Search API in Python

Verwendung der Ollama Web Search API in Go

Lokales LLM-Hosting: Komplettführer 2025 - Ollama, vLLM, LocalAI, Jan, LM Studio & Mehr

KI-Infrastruktur auf Consumer-Hardware

NVIDIA DGX Spark vs. Mac Studio vs. RTX-4080: Ollama-Leistungsvergleich

Docker Model Runner vs. Ollama: Was ist die bessere Wahl?

Ollama-Clients für Go: SDK-Vergleich und Beispiele für Qwen3/GPT-OSS

Vergleich: Qwen3:30b vs GPT-OSS:20b

Integration von Ollama mit Python: Beispiele für REST-API und Python-Client

Probleme mit strukturierten Ausgaben in Ollama GPT-OSS

Einschränkung von LLMs mit strukturierten Ausgaben: Ollama, Qwen3 & Python oder Go

Speicherzuweisungsmodellplanung in der neuen Version von Ollama - v0.12.1

Ollama Enshittification - die ersten Anzeichen

Chat-Oberflächen für lokale Ollama-Instanzen

Dokumente mit Ollama und Qwen3 Reranker-Modell neu bewerten – in Go

Vergleich der Qualität der Hugo-Seitentranslation – LLMs auf Ollama