AI - Page 3 - Rost Glukhov | Persönliche Website und technischer Blog

Die Wahl des richtigen LLM für Cognee: Lokale Ollama-Installation

Die Wahl des Besten LLM für Cognee erfordert das Ausbalancieren von Graph-Qualität, Halluzinationsraten und Hardware-Beschränkungen.
Cognee leistet sich besonders gut mit größeren, niedrig-halluzinierenden Modellen (32B+) über Ollama, doch mittelgroße Optionen sind für leichtere Systeme geeignet.

Steigern Sie die Produktivität mit Jupyter Notebook mit wesentlichen Shortcuts, Zauberbefehlen und Workflow-Tipps, die Ihr Datenwissenschafts- und Entwicklererlebnis transformieren werden.

Verwendung der Ollama Web Search API in Python

Ollamas Python-Bibliothek umfasst nun native OLlama Websuche-Funktionen. Mit nur wenigen Codezeilen können Sie Ihre lokalen LLMs mit Echtzeitinformationen aus dem Web erweitern, um Halluzinationen zu reduzieren und die Genauigkeit zu verbessern.

Die Wahl der richtigen Vektordatenbank kann den Erfolg oder Misserfolg Ihrer RAG-Anwendung in Bezug auf Leistung, Kosten und Skalierbarkeit bestimmen. Dieser umfassende Vergleich deckt die beliebtesten Optionen für 2024–2025 ab.

Verwendung der Ollama Web Search API in Go

Ollamas Web-Search-API ermöglicht es Ihnen, lokale LLMs mit Echtzeit-Webinformationen zu erweitern. Diese Anleitung zeigt Ihnen, wie Sie Web-Suchfunktionen in Go implementieren, von einfachen API-Aufrufen bis hin zu vollwertigen Suchagenten.

RAM-Preisanstieg: Bis zu 619 % im Jahr 2025

Der Speichermarkt erlebt Ende 2025 eine beispiellose Preisschwankung, bei der die RAM-Preise in allen Segmenten dramatisch gestiegen sind.

Ollama vs. vLLM vs. LM Studio: Der beste Weg, LLMs 2026 lokal zu betreiben?

Das lokale Ausführen von LLMs ist jetzt für Entwickler, Startups und sogar Enterprise-Teams praktisch geworden.
Aber die Wahl des richtigen Tools — Ollama, vLLM, LM Studio, LocalAI oder andere — hängt von Ihren Zielen ab:

Microservices für die Orchestrierung von KI/ML

Als KI- und ML-Workloads zunehmend komplexer werden, steigt der Bedarf an robusten Orchestrierungssystemen. Die Einfachheit, Leistung und Parallelverarbeitung von Go machen es zur idealen Wahl für den Aufbau der Orchestrierungsebene von ML-Pipelines, selbst wenn die Modelle selbst in Python geschrieben sind.

Cross-Modal-Einbettungen: Brücken zwischen KI-Modalen

Cross-modale Einbettungen stellen einen Durchbruch in der künstlichen Intelligenz dar und ermöglichen das Verständnis und die Schlussfolgerung über verschiedene Datentypen hinweg in einem einheitlichen Darstellungsraum.

Die Demokratisierung der KI ist da. Mit Open-Source-LLMs wie Llama, Mistral und Qwen, die nun proprietäre Modelle herausfordern, können Teams eine leistungsstarke KI-Infrastruktur mit Consumer-Hardware aufbauen – und dabei die Kosten drastisch senken, während sie die vollständige Kontrolle über Datenschutz und Bereitstellung behalten.

Fortgeschrittenes RAG: Erklärung von LongRAG, Self-RAG und GraphRAG

Retrieval-Augmented Generation (RAG) hat sich weit über die einfache Vektorähnlichkeitssuche hinaus entwickelt. LongRAG, Self-RAG und GraphRAG repräsentieren den Stand der Technik dieser Fähigkeiten.

FLUX.1-dev ist ein leistungsstarkes Text-zu-Bild-Modell, das beeindruckende Ergebnisse liefert, aber dessen Speicherbedarf von über 24GB die Nutzung auf vielen Systemen erschwert. GGUF-Quantisierung von FLUX.1-dev bietet eine Lösung, indem sie den Speicherbedarf um etwa 50% reduziert, während die Bildqualität erhalten bleibt.

Docker Model Runner: Kontextgrößen-Konfigurationsleitfaden

Einrichten von Kontextgrößen im Docker Model Runner ist komplexer, als es sein sollte.

FLUX.1-Kontext-dev: KI-Modell zur Bildvergrößerung

Black Forest Labs hat FLUX.1-Kontext-dev veröffentlicht, ein fortschrittliches Bild-zu-Bild-KI-Modell, das bestehende Bilder mithilfe von Textanweisungen erweitert.

Hinzufügen von NVIDIA-GPU-Unterstützung zum Docker-Modell-Runner

Docker Model Runner ist das offizielle Tool von Docker, um KI-Modelle lokal zu verwenden, aber GPU-Beschleunigung mit NVidia in Docker Model Runner erfordert eine spezifische Konfiguration.

Kosten von LLMs senken: Token-Optimierungsstrategien

Tokenoptimierung ist die kritische Fähigkeit, die kosteneffiziente LLM-Anwendungen von budgetbelastenden Experimenten unterscheidet.

AI

Die Wahl des richtigen LLM für Cognee: Lokale Ollama-Installation

Jupyter Notebook Cheatsheet

Verwendung der Ollama Web Search API in Python

Vergleich von Vektordatenbanken für RAG

Verwendung der Ollama Web Search API in Go

RAM-Preisanstieg: Bis zu 619 % im Jahr 2025

Ollama vs. vLLM vs. LM Studio: Der beste Weg, LLMs 2026 lokal zu betreiben?

Microservices für die Orchestrierung von KI/ML

Cross-Modal-Einbettungen: Brücken zwischen KI-Modalen

KI-Infrastruktur auf Consumer-Hardware

Fortgeschrittenes RAG: Erklärung von LongRAG, Self-RAG und GraphRAG

FLUX.1-dev mit GGUF Q8 ausführen

Docker Model Runner: Kontextgrößen-Konfigurationsleitfaden

FLUX.1-Kontext-dev: KI-Modell zur Bildvergrößerung

Hinzufügen von NVIDIA-GPU-Unterstützung zum Docker-Modell-Runner

Kosten von LLMs senken: Token-Optimierungsstrategien