Contrôle vocal d'Hermes depuis votre téléphone

Parlez à Hermes depuis votre téléphone

Sommaire

Vous discutez déjà avec l’agent Hermes depuis votre téléphone par messages texte. Vous souhaitez désormais lui parler directement et recevoir des réponses vocales. C’est généralement la bonne approche, surtout si vous utilisez déjà Hermes comme assistant auto-hébergé persistant. Taper de longs prompts sur un petit écran est lent et sujet aux erreurs.

Le mode vocal rend Hermes pratique dans les moments qui comptent le plus, que ce soit en marchant, en déplacement ou lors de tâches administratives loin de votre bureau.

Contrôle vocal de Hermes depuis un mobile via Telegram

La bonne nouvelle est que le mode vocal peut fonctionner sans aucune API payante. Un modèle local faster-whisper gère la transcription, et Edge TTS gère la synthèse vocale gratuitement. Ce guide couvre la configuration, le choix des fournisseurs, les différences de plateforme, les modèles de commande pratiques et les modes de défaillance qui bloquent généralement les utilisateurs pour la première fois.

Comment fonctionne le pipeline

Trois étapes, sans magie :

  1. Transcription STT — Votre message vocal devient du texte.
  2. Raisonnement — Hermes traite ce texte exactement comme une demande tapée.
  3. Synthèse TTS — Le texte de réponse est reconverti en audio.

La distinction importante par rapport aux assistants grand public réside dans la profondeur d’exécution. Hermes ne se contente pas de répondre à des questions triviales. Il peut appeler des outils, inspecter des fichiers, exécuter des chemins de code et poursuivre des travaux multi-étapes à partir de la mémoire. En pratique, cela signifie que la voix peut déclencher de vrais flux de travail tels que le triage d’incidents, la génération de brouillons et le débogage ciblé. Si vous souhaitez un contexte architectural plus large, le pilier Systèmes IA explique comment cette couche vocale s’intègre dans l’infrastructure d’agents locaux.

Les points forts du contrôle vocal

Utilisez le mode vocal lorsque la précision du clavier n’est pas requise :

  • Vérifications opérationnelles lorsque vous êtes éloigné de votre ordinateur portable.
  • Capture d’idées pour des brouillons, des plans et des spécifications approximatives.
  • Triage rapide des alertes et erreurs avant un suivi approfondi sur ordinateur de bureau.
  • Flux de travail mains occupées où la parole est le seul canal d’entrée réaliste.

Entrée vocale : Choisissez un fournisseur STT

Fournisseur Coût Clé API Notes
Local faster-whisper Gratuit Aucune Sur l’appareil, modèle ~150 Mo, 90+ langues
Groq Whisper Niveau gratuit GROQ_API_KEY Inférence cloud rapide
OpenAI Whisper Payant VOICE_TOOLS_OPENAI_KEY Précision la plus élevée
Mistral Voxtral Payant MISTRAL_API_KEY Option cloud alternative

Configuration dans ~/.hermes/config.yaml :

stt:
  enabled: true
  provider: local
  local:
    model: base  # tiny, base, small, medium, large-v3

Commencez par local. Il fonctionne immédiatement, gère la parole multilingue et n’ajoute aucun coût récurrent. Passez à Groq ou OpenAI uniquement si votre configuration locale ne peut pas répondre à vos exigences de latence ou de précision. Pour la configuration au niveau des commandes et les diagnostics lors du test des fournisseurs, gardez la feuille de triche de la CLI Hermes à portée de main.

Sélection du modèle Faster Whisper

Utilisez une progression simple :

  • tiny pour les appareils à très faible puissance où la vitesse est primordiale.
  • base comme équilibre par défaut pour les ordinateurs portables et les petits serveurs.
  • small lorsque les accents, les environnements bruyants ou les termes de domaine réduisent la précision.
  • medium ou large-v3 lorsque la qualité est critique et que le budget matériel est plus élevé.

Si vos transcriptions sont systématiquement incorrectes, augmentez d’abord la taille du modèle avant d’ajouter de la complexité aux prompts.

Sortie vocale : Fournisseurs TTS

Fournisseur Qualité Coût Idéal pour
Edge TTS (par défaut) Bonne Gratuit Démarrage rapide, 322 voix, 74 langues
ElevenLabs Excellente Payant Qualité premium, clonage de voix
OpenAI TTS Bonne Payant Voix naturelles, 6 options
MiniMax TTS Excellente Payant Contrôle fin de la vitesse/volume/timbre
NeuTTS Bonne Gratuit (local) Totalement hors ligne, clonage de voix

Configuration :

tts:
  provider: "edge"
  speed: 1.0

  edge:
    voice: "en-US-AriaNeural"

Un détail critique est le format de sortie. Les bulles vocales Telegram sont les plus fiables lorsque l’audio est encodé en OGG avec Opus. Hermes s’appuie sur ffmpeg pour ces conversions dans les configurations courantes. Si ffmpeg est manquant, les réponses apparaissent souvent en tant que pièces jointes plutôt qu’en tant que bulles vocales inline.

Installez ffmpeg tôt :

sudo apt install ffmpeg  # Ubuntu/Debian
brew install ffmpeg       # macOS

Flux de travail de plateforme et différences pratiques

Telegram

Telegram est l’endroit le plus facile pour commencer. Les messages vocaux sont de première classe sur mobile, et la boucle d’interaction est simple : maintenir, parler, relâcher, recevoir.

Configuration :

# 1. Créez un bot via @BotFather, obtenez votre jeton
# 2. Ajoutez à ~/.hermes/.env :
TELEGRAM_BOT_TOKEN=***
TELEGRAM_ALLOWED_USERS=votre_id_utilisateur

# 3. Démarrez la passerelle
hermes gateway start

Ouvrez ensuite le chat Hermes, appuyez sur le microphone et parlez. Si la STT et la TTS sont activées, Hermes transcrira votre demande, l’exécutera et enverra une réponse vocale.

Discord

Discord prend en charge deux modes utiles. Les messages vocaux dans les messages privés ou les canaux sont proches du comportement de Telegram.

L’option plus avancée est les canaux vocaux en direct. Dans ce flux, Hermes peut participer en continu, transcrivant la parole et répondant sans bulles de message explicites.

Exigences :

  • Intention de contenu des messages activée dans les paramètres de votre bot
  • Intention des membres du serveur activée
  • Permissions du bot : Connecter et Parler

Signal

Signal fonctionne via le démon signal-cli. Les messages vocaux utilisent toujours le même pipeline STT et TTS de Hermes.

Un modèle utile consiste à exécuter signal-cli comme un appareil lié et à utiliser Signal Note to Self. Vous pouvez vous laisser un message vocal et obtenir la sortie de Hermes dans le même fil de discussion.

WhatsApp

WhatsApp suit le même modèle de passerelle. Les messages audio sont transcrites automatiquement une fois le connecteur configuré.

Permissions des applications mobiles

iOS et Android nécessitent tous deux l’accès au microphone pour l’application de messagerie que vous utilisez.

iOS : Réglages → Telegram (ou Discord) → Autorisations → Microphone → Autoriser. Activez l’Actualisation en arrière-plan des applications pour des réponses instantanées.

Android : Paramètres → Applications → Telegram → Autorisations → Microphone → Autoriser. Pour les canaux vocaux Discord, activez l’autorisation de superposition.

Épingler le chat du bot Hermes sur votre écran d’accueil aide — une seule touche pour commencer à parler.

Modèles de parole fiables

L’interaction vocale a une ergonomie différente de la frappe. Vous ne pouvez pas facilement coller des journaux ou citer de longues traces de pile, donc la structure compte :

  • Soyez explicite. Dites l’action, la portée et le format de sortie en une seule phrase.
  • Gardez un objectif par message. Divisez les tâches multi-étapes en courts suivis.
  • Contrainte la sortie. Demandez des actions numérotées ou un résumé en 3 points lorsque la lisibilité mobile est importante.
  • Restez court. Environ 10 à 30 secondes par message se transcrivent généralement mieux.
  • Utilisez des tours itératifs. Corrigez et affinez dans le prochain message vocal au lieu de surcharger le premier.

Exemples de prompts que vous pouvez parler

  • “Vérifiez les journaux de déploiement de la dernière heure et signalez uniquement les erreurs critiques.”
  • “Créez un plan de brouillon pour un article sur la migration OpenTelemetry avec cinq sections.”
  • “Résumez ce bug en trois points et proposez la cause racine la plus probable.”
  • “Vérifiez la configuration et dites-moi quoi changer pour une latence de transcription plus faible.”

Cas d’utilisation courants avec des résultats concrets

  • Opérations — “Vérifiez la santé de la production et listez les services échoués.”
    Le résultat est une mise à jour d’état ciblée sur laquelle vous pouvez agir immédiatement.
  • Rédaction — “Transformez ces points approximatifs en un paragraphe d’introduction publié.”
    Le résultat est un texte soigné à partir de notes vocales.
  • Triage de débogage — “Investiguez cette TypeError et suggérez la première correction à tester.”
    Le résultat est une prochaine étape concrète avant d’ouvrir l’IDE.
  • Recherche — “Trouvez trois sources récentes sur le sujet X et résumez les différences.”
    Le résultat est un briefing compressé pour un travail approfondi ultérieur.
  • Automatisation — “Exécutez la routine domestique et confirmez les états des appareils.”
    Le résultat est une action directe plus confirmation.

Dépannage

Les messages vocaux ne sont pas transcrits : Confirmez stt.enabled: true dans config.yaml. Vérifiez que les dépendances locales sont installées. Redémarrez ensuite avec hermes gateway restart.

La TTS ne répond pas : Confirmez que tts.provider est défini. Si vous utilisez un fournisseur payant, vérifiez la clé API dans .env. Validez les paramètres vocaux actuels à partir des commandes de statut de la CLI Hermes.

Mauvaise qualité de transcription : Augmentez stt.local.model de base à small ou medium. Réduisez le bruit et parlez par segments plus courts. Si nécessaire, passez à la STT cloud pour une meilleure précision.

Les bulles vocales apparaissent en tant que fichiers sur Telegram : Installez ffmpeg et redémarrez la passerelle. C’est le problème le plus courant.

La pile gratuite

Pour les configurations soucieuses des coûts, cette base est solide :

  • STT : Local faster-whisper sans clé API
  • TTS : Edge TTS avec une large couverture linguistique
  • Coût total : 0 $

C’est un avantage significatif par rapport à de nombreux assistants fermés où la qualité vocale et l’automatisation deviennent rapidement des fonctionnalités payantes uniquement.

Si les exigences de qualité augmentent, mettez à niveau une couche à la fois. Habituellement, les mises à niveau de la STT produisent le plus grand gain immédiat, puis la qualité de la TTS peut être améliorée plus tard si nécessaire.

Thèmes FAQ en pratique

Les quatre questions les plus courantes des utilisateurs sont prévisibles. Elles chevauchent également les préoccupations de conception de la mémoire et du profil couvertes dans Système de mémoire de l’agent Hermes et Modèles de configuration de production Hermes.

  • Si les commandes vocales obtiennent le même accès aux outils que le texte.
  • Si une pile gratuite est viable pour une utilisation quotidienne.
  • Pourquoi Telegram affiche parfois des pièces jointes au lieu de bulles vocales.
  • Quel modèle Whisper local doit être utilisé en premier.

Ce guide aborde chacun de ces points directement dans les sections de configuration, d’ajustement et de dépannage afin que vous puissiez passer rapidement de la première exécution à une utilisation quotidienne stable.

Rappel de démarrage rapide

# 1. Installez les extras vocaux
pip install "hermes-agent[all]"

# 2. Configurez la passerelle Telegram
hermes gateway setup

# 3. Installez ffmpeg (requis pour les bulles vocales Telegram)
sudo apt install ffmpeg

# 4. Envoyez un message vocal depuis votre téléphone
# Hermes transcrit, traite et répond

À partir de là, itérez en fonction de votre goulot d’étranglement réel. Si la latence est le problème, ajustez la taille du modèle ou la STT cloud. Si la qualité audio est le problème, ajustez le fournisseur TTS et le preset vocal. Commencez gratuitement, mesurez, puis mettez à niveau uniquement là où cela améliore réellement votre flux de travail.

S'abonner

Recevez de nouveaux articles sur les systèmes, l'infrastructure et l'ingénierie IA.