Kann Hermes Sprachnachrichten vom Telefon wie Textbefehle verarbeiten?

Ja. Hermes wandelt Sprache in Text um, führt die gleiche Agent-Pipeline mit Tools und Memory aus und kann bei aktiviertem TTS gesprochene Antworten zurückgeben.

Welcher kostenlose Tech-Stack eignet sich am besten für den Sprachmodus von Hermes?

Ein praktisches, kostenloses Setup besteht aus lokalem Faster Whisper für die Transkription und Edge TTS für die Sprachausgabe. Es erfordert keine kostenpflichtigen API-Schlüssel und eignet sich gut für die tägliche Nutzung.

Warum zeigt Telegram Audio als Datei statt als Sprachblase an?

Telegram-Sprachnachrichten benötigen in der Regel einen OGG Opus-Ausgang. Die Installation von ffmpeg und ein Neustart von Hermes behebt in den meisten Fällen Probleme, bei denen Antworten als Anhänge angezeigt werden.

Welches Whisper-Modell sollte ich auf einem Laptop verwenden?

Beginnen Sie mit dem Basis-Modell für ein ausgewogenes Verhältnis von Geschwindigkeit und Genauigkeit. Wechseln Sie zum kleinen oder mittleren Modell, wenn die Erkennungsgenauigkeit unzureichend ist, oder verwenden Sie das Tiny-Modell für Hardware mit geringem Stromverbrauch.

Ist Cloud-basierte STT für gute Ergebnisse erforderlich?

Nein. Cloud-basierte STT kann in bestimmten Umgebungen die Genauigkeit oder Latenz verbessern, aber lokales Faster Whisper reicht oft aus und hält Ihren Arbeitsablauf einfach.

Hermes Sprachsteuerung von Ihrem Telefon

Sprechen Sie mit Hermes von Ihrem Telefon

Inhaltsverzeichnis

Sie chatten bereits mit dem Hermes-Agenten auf Ihrem Smartphone über Text. Jetzt möchten Sie direkt mit ihm sprechen und gesprochene Antworten erhalten. Das ist in der Regel der richtige Schritt, insbesondere wenn Sie Hermes bereits als persistenten, selbst gehosteten Assistenten nutzen. Lange Prompts auf einem kleinen Bildschirm einzutippen ist langsam und fehleranfällig.

Der Sprachmodus macht Hermes in den Momenten praktikabel, in denen es am wichtigsten ist: beim Gehen, Pendeln oder bei Verwaltungsarbeiten weg vom Schreibtisch.

Die gute Nachricht ist, dass der Sprachmodus ohne kostenpflichtige APIs ausgeführt werden kann. Ein lokales Faster-Whisper-Modell übernimmt die Transkription und Edge TTS die gesprochene Ausgabe – alles kostenlos. Dieser Leitfaden behandelt die Einrichtung, die Auswahl der Provider, plattformspezifische Unterschiede, praktische Befehlsmuster und die Fehlerquellen, die Neulinge typischerweise blockieren.

Wie die Pipeline funktioniert

Drei Stufen, kein Zauber:

Transkription (STT) — Ihre Sprachnachricht wird in Text umgewandelt.
Verarbeitung — Hermes verarbeitet diesen Text genau wie eine getippte Anfrage.
Synthese (TTS) — Der Antworttext wird zurück in Audio konvertiert.

Der entscheidende Unterschied zu kommerziellen Assistenten ist die Ausführungstiefe. Hermes beantwortet nicht nur Trivia. Er kann Tools aufrufen, Dateien inspizieren, Codepfade ausführen und mehrstufige Arbeiten aus dem Gedächtnis fortführen. In der Praxis bedeutet das, dass Sprache echte Workflows auslösen kann, wie Incident-Triage, Entwurfsgenerierung und gezieltes Debugging. Wenn Sie den breiteren Architekturkontext wünschen, erklärt die AI-Systeme-Säule, wie diese Sprachschicht in die lokale Agenten-Infrastruktur passt.

Wofür Sprachsteuerung ideal ist

Nutzen Sie den Sprachmodus, wenn Tastaturpräzision nicht erforderlich ist, aber:

Operative Checks unterwegs, fernab Ihres Laptops.
Ideenfesthalten für Entwürfe, Gliederungen und grobe Spezifikationen.
Schnelle Triage von Alerts und Fehlern vor einer tiefergehten Desktop-Nachbearbeitung.
Arbeitsabläufe mit belegten Händen, bei denen Sprechen der einzige realistische Eingabekanal ist.

Spracheingabe: Wählen Sie einen STT-Provider

Provider	Kosten	API-Schlüssel	Hinweise
Lokaler Faster-Whisper	Kostenlos	Keiner	On-Device, ~150 MB Modell, 90+ Sprachen
Groq Whisper	Kostenlos (Free Tier)	`GROQ_API_KEY`	Schnelle Cloud-Inferenz
OpenAI Whisper	Bezahlt	`VOICE_TOOLS_OPENAI_KEY`	Höchste Genauigkeit
Mistral Voxtral	Bezahlt	`MISTRAL_API_KEY`	Alternative Cloud-Option

Konfiguration in ~/.hermes/config.yaml:

stt:
  enabled: true
  provider: local
  local:
    model: base  # tiny, base, small, medium, large-v3

Beginnen Sie mit local (lokal). Es funktioniert sofort, unterstützt mehrsprachige Sprache und verursacht keine laufenden Kosten. Wechseln Sie nur zu Groq oder OpenAI, wenn Ihre lokale Einrichtung Ihre Anforderungen an Latenz oder Genauigkeit nicht erfüllen kann. Für die Einrichtung auf Befehlsebene und die Diagnose während des Testens der Provider, halten Sie das Hermes CLI Cheat Sheet griffbereit.

Auswahl des Faster-Whisper-Modells

Nutzen Sie eine einfache Progression:

tiny für Geräte mit sehr geringer Leistung, wo Geschwindigkeit am meisten zählt.
base als ausgewogenes Standardmodell für Laptops und kleine Server.
small wenn Akzente, laute Umgebungen oder domänenspezifische Begriffe die Genauigkeit beeinträchtigen.
medium oder large-v3 wenn Qualität kritisch ist und das Budget für Hardware höher liegt.

Wenn Ihre Transkripte konsistent falsch sind, erhöhen Sie zuerst die Modellgröße, bevor Sie die Prompt-Komplexität erhöhen.

Sprachausgabe: TTS-Provider

Provider	Qualität	Kosten	Ideal für
Edge TTS (Standard)	Gut	Kostenlos	Schnellstart, 322 Stimmen, 74 Sprachen
ElevenLabs	Ausgezeichnet	Bezahlt	Premium-Qualität, Voice Cloning
OpenAI TTS	Gut	Bezahlt	Natürliche Stimmen, 6 Optionen
MiniMax TTS	Ausgezeichnet	Bezahlt	Feingranulare Steuerung von Tempo, Lautstärke und Tonhöhe
NeuTTS	Gut	Kostenlos (lokal)	Vollständig offline, Voice Cloning

Konfiguration:

tts:
  provider: "edge"
  speed: 1.0

  edge:
    voice: "de-DE-HeddaNeural"

Ein kritisches Detail ist das Ausgabeformat. Telegram-Sprachblasen sind am zuverlässigsten, wenn Audio als OGG mit Opus kodiert ist. Hermes verlässt sich in gängigen Einstellungen auf ffmpeg für diese Konvertierungen. Wenn ffmpeg fehlt, erscheinen Antworten oft als Dateianhänge statt als integrierte Sprachblasen.

Installieren Sie ffmpeg frühzeitig:

sudo apt install ffmpeg  # Ubuntu/Debian
brew install ffmpeg       # macOS

Plattform-Workflows und praktische Unterschiede

Telegram ist der einfachste Einstiegspunkt. Sprachnachrichten sind auf Mobilgeräten erstklassig unterstützt, und der Interaktionszyklus ist einfach: Halten, Sprechen, Loslassen, Empfangen.

Einrichtung:

# 1. Erstellen Sie einen Bot via @BotFather und erhalten Sie Ihr Token
# 2. Fügen Sie dies zu ~/.hermes/.env hinzu:
TELEGRAM_BOT_TOKEN=***
TELEGRAM_ALLOWED_USERS=ihre_user_id

# 3. Starten Sie das Gateway
hermes gateway start

Öffnen Sie dann den Hermes-Chat, tippen Sie auf das Mikrofon und sprechen Sie. Wenn STT und TTS aktiviert sind, transkribiert Hermes Ihre Anfrage, führt sie aus und sendet eine Sprachantwort.

Discord

Discord unterstützt zwei nützliche Modi. Sprachnachrichten in DMs oder Kanälen ähneln dem Telegram-Verhalten.

Die fortschrittlichere Option sind Live-Sprachkanäle. In diesem Flow kann Hermes kontinuierlich teilnehmen, Sprache transkribieren und antworten, ohne explizite Nachrichtenblasen.

Anforderungen:

Message Content Intent in Ihren Bot-Einstellungen aktiviert
Server Members Intent aktiviert
Bot-Berechtigungen: Connect and Speak (Verbinden und Sprechen)

Signal

Signal funktioniert über den signal-cli-Daemon. Sprachnachrichten nutzen nach wie vor die gleiche Hermes-STT- und TTS-Pipeline.

Ein nützliches Muster ist das Ausführen von signal-cli als verknüpftes Gerät und die Nutzung von „Signal Notiz an sich selbst“ (Note to Self). Sie können sich eine Sprachnotiz hinterlassen und die Hermes-Ausgabe im gleichen Thread erhalten.

WhatsApp folgt demselben Gateway-Modell. Audionachrichten werden automatisch transkribiert, sobald der Connector konfiguriert ist.

Berechtigungen für Mobile Apps

Sowohl iOS als auch Android benötigen Mikrofonzugriff für die Messaging-App, die Sie verwenden.

iOS: Einstellungen → Telegram (oder Discord) → Berechtigungen → Mikrofon → Erlauben. Aktivieren Sie „Apps aktualisieren“ im Hintergrund für sofortige Antworten.

Android: Einstellungen → Apps → Telegram → Berechtigungen → Mikrofon → Erlauben. Für Discord-Sprachkanäle aktivieren Sie die Overlay-Berechtigung.

Das Anheften des Hermes-Bot-Chats auf Ihrem Startbildschirm hilft – ein Tap zum Starten des Sprechens.

Sprechmuster, die zuverlässig funktionieren

Sprachinteraktion hat eine andere Ergonomie als Tippen. Sie können Logs nicht einfach einfügen oder lange Stack-Traces zitieren, daher ist Struktur wichtig:

Seien Sie explizit. Sagen Sie Aktion, Umfang und Ausgabeformat in einem Satz.
Behalten Sie ein Ziel pro Nachricht im Auge. Teilen Sie mehrstufige Jobs in kurze Nachfragen auf.
Begrenzen Sie die Ausgabe. Fordern Sie nummerierte Aktionen oder eine 3-Punkt-Zusammenfassung an, wenn die Lesbarkeit auf dem Mobilgerät wichtig ist.
Halten Sie es kurz. Etwa 10 bis 30 Sekunden pro Nachricht transkribieren in der Regel besser.
Nutzen Sie iterative Runden. Korrigieren und verfeinern Sie in der nächsten Sprachnachricht, statt die erste zu überladen.

Beispiel-Prompts, die Sie sprechen können

„Überprüfe die Deployment-Logs der letzten Stunde und melde nur kritische Fehler.“
„Erstelle einen Entwurfsentwurf für einen Beitrag über die OpenTelemetry-Migration mit fünf Abschnitten.“
„Fasse diesen Bug in drei Punkten zusammen und schlage die wahrscheinlichste Ursache vor.“
„Überprüfe die Konfiguration und sag mir, was ich ändern muss, um die Transkriptionslatenz zu senken.“

Häufige Anwendungsfälle mit konkreten Ergebnissen

Betrieb — „Überprüfe die Produktionsgesundheit und liste fehlgeschlagene Dienste auf.“ Das Ergebnis ist eine fokussierte Statusaktualisierung, auf die Sie sofort reagieren können.
Schreiben — „Verwandle diese groben Punkte in einen veröffentlichungsfähigen Einführungsabsatz.“ Das Ergebnis ist polierter Text aus gesprochenen Notizen.
Debug-Triage — „Untersuche diesen TypeError und schlage die erste zu testende Korrektur vor.“ Das Ergebnis ist ein konkreter nächster Schritt, bevor Sie die IDE öffnen.
Forschung — „Finde drei aktuelle Quellen zu Thema X und fasse die Unterschiede zusammen.“ Das Ergebnis ist eine komprimierte Zusammenfassung für spätere vertiefte Arbeit.
Automatisierung — „Führe die Home-Routine aus und bestimme die Gerätezustände.“ Das Ergebnis ist direkte Aktion plus Bestätigung.

Fehlerbehebung

Sprachnachrichten werden nicht transkribiert: Stellen Sie sicher, dass stt.enabled: true in config.yaml gesetzt ist. Überprüfen Sie, ob lokale Abhängigkeiten installiert sind. Starten Sie dann mit hermes gateway restart neu.

TTS antwortet nicht: Stellen Sie sicher, dass tts.provider gesetzt ist. Wenn Sie einen bezahlten Provider nutzen, überprüfen Sie den API-Schlüssel in .env. Validieren Sie die aktuellen Stimmeeinstellungen über die Hermes-CLI-Statusbefehle.

Schlechte Transkriptionsqualität: Erhöhen Sie stt.local.model von base auf small oder medium. Reduzieren Sie Hintergrundgeräusche und sprechen Sie in kürzeren Segmenten. Wechseln Sie bei Bedarf zu Cloud-STT für bessere Genauigkeit.

Sprachblasen erscheinen als Dateien auf Telegram: Installieren Sie ffmpeg und starten Sie das Gateway neu. Dies ist das häufigste Problem.

Der kostenlose Stack

Für kostensensitive Einstellungen ist diese Basis stark:

STT: Lokaler Faster-Whisper ohne API-Schlüssel
TTS: Edge TTS mit breiter Sprachabdeckung
Gesamtkosten: $0

Dies ist ein bedeutsamer Vorteil gegenüber vielen geschlossenen Assistenten, bei denen Sprachqualität und Automatisierung schnell zu kostenpflichtigen Funktionen werden.

Wenn die Qualitätsanforderungen steigen, aktualisieren Sie eine Schicht nach der anderen. In der Regel produzieren STT-Updates den größten unmittelbaren Gewinn, die TTS-Qualität kann später bei Bedarf verbessert werden.

FAQ-Themen in der Praxis

Die vier häufigsten Fragen der Nutzer sind vorhersagbar. Sie überschneiden sich auch mit den Belangen der Gedächtnis- und Profildesigns, die in Hermes Agent Memory System und Hermes production setup patterns behandelt werden.

Ob Sprachbefehle denselben Tool-Zugang erhalten wie Text.
Ob ein kostenloser Stack für die tägliche Nutzung praktikabel ist.
Warum Telegram manchmal Anhänge statt Sprachblasen anzeigt.
Welches lokale Whisper-Modell zuerst verwendet werden sollte.

Dieser Leitfaden adressiert jede dieser Fragen direkt in den Abschnitten zur Einrichtung, Abstimmung und Fehlerbehebung, damit Sie schnell vom ersten Lauf zur stabilen täglichen Nutzung gelangen können.

Zusammenfassung des Schnellstarts

# 1. Sprach-Extras installieren
pip install "hermes-agent[all]"

# 2. Telegram-Gateway einrichten
hermes gateway setup

# 3. ffmpeg installieren (erforderlich für Telegram-Sprachblasen)
sudo apt install ffmpeg

# 4. Senden Sie eine Sprachnachricht von Ihrem Telefon
# Hermes transkribiert, verarbeitet und antwortet

Iterieren Sie von dort aus basierend auf Ihrer echten Engstelle. Wenn Latenz das Problem ist, passen Sie die Modellgröße oder das Cloud-STT an. Wenn die Audioqualität das Problem ist, passen Sie den TTS-Provider und die Stimmenvorlage an. Beginnen Sie kostenlos, messen Sie und aktualisieren Sie nur dort, wo es Ihren Workflow tatsächlich verbessert.