Hermes röststyrning från din telefon
Kontakta Hermes från din telefon
Du chattar redan med Hermes Agent från din telefon med text. Nu vill du prata med den direkt och få muntliga svar tillbaka. Det är oftast rätt val, särskilt om du redan använder Hermes som en självhostad assistent. Att skriva långa prompter på en liten skärm är långsamt och benäget för fel
Röstläge gör Hermes praktiskt i de ögonblick som räcks mest, när du går, pendlar eller utför administrativt arbete bort från ditt skrivbord.

Den goda nyheten är att röstläget kan köras utan några betalda API:er. En lokal faster-whisper-modell hanterar transkription, och Edge TTS hanterar den muntliga utmatningen gratis. Denna guide täcker installation, val av leverantör, plattformsskillnader, praktiska kommandomönster och de felmoder som oftast blockerar nya användare.
Hur pipelinesn fungerar
Tre steg, utan magi:
- Transkription STT — Ditt röstmeddelande blir till text.
- Resonemang — Hermes bearbetar texten exakt som en skriven begäran.
- Syntes TTS — Svarstexten konverteras tillbaka till ljud.
Den viktiga skillnaden jämfört med konsumentassistenter är utförandedjupet. Hermes besvarar inte bara triviala frågor. Den kan anropa verktyg, inspektera filer, köra kodvägar och fortsätta flerstegsarbete från minnet. I praktiken innebär det att röst kan utlösa verkliga arbetsflöden som incidenthantering, utkastsgenerering och riktad felsökning. Om du vill ha den bredare arkitektursammanhanget, förklarar AI Systems-pillaren hur detta röstsikt passar in i lokal agentinfrastruktur.
Vad röstkontroll är bra för
Använd röstläge när tangentbordsprecision inte krävs än:
- Operativa kontroller när du är borta från din laptop.
- Idéfånga för utkast, dispositioner och grova specifikationer.
- Snabb triage av larm och fel innan djupare desktopuppföljning.
- Arbetsflöden med upptagna händer där tal är den enda realistiska inmatningskanalen.
Röstinput: Välj en STT-leverantör
| Leverantör | Kostnad | API-nyckel | Noter |
|---|---|---|---|
| Lokal faster-whisper | Gratis | Ingen | På enheten, ~150 MB modell, 90+ språk |
| Groq Whisper | Gratis nivå | GROQ_API_KEY |
Snabb molninferens |
| OpenAI Whisper | Betald | VOICE_TOOLS_OPENAI_KEY |
Högst precision |
| Mistral Voxtral | Betald | MISTRAL_API_KEY |
Alternativ molnoption |
Konfiguration i ~/.hermes/config.yaml:
stt:
enabled: true
provider: local
local:
model: base # tiny, base, small, medium, large-v3
Börja med local. Det fungerar omedelbart, hanterar flerspråkigt tal och lägger ingen löpende kostnad. Byt till Groq eller OpenAI endast om din lokala installation inte kan uppfylla dina krav på latens eller precision. För kommandonivåinstallation och diagnostik medan du testar leverantörer, ha Hermes CLI-snabbreferensen nära till hands.
Val av Faster Whisper-modell
Använd en enkel progression:
- tiny för mycket lågströmsenheter där hastighet är viktigast.
- base som standardbalans för laptops och små servrar.
- small när accenter, bullriga miljöer eller domänspecifika termer minskar precisionen.
- medium eller large-v3 när kvalitet är kritisk och hårdvarubudgeten är högre.
Om dina transkriptioner konsekvent är felaktiga, öka först modellstorleken innan du lägger till mer promptkomplexitet.
Röstoutput: TTS-leverantörer
| Leverantör | Kvalitet | Kostnad | Bästa för |
|---|---|---|---|
| Edge TTS (standard) | Bra | Gratis | Snabb start, 322 röster, 74 språk |
| ElevenLabs | Utmärkt | Betald | Premiumkvalitet, röstklonning |
| OpenAI TTS | Bra | Betald | Naturliga röster, 6 alternativ |
| MiniMax TTS | Utmärkt | Betald | Finjusterad kontroll av hastighet/volym/pitch |
| NeuTTS | Bra | Gratis (lokal) | Fullt offline, röstklonning |
Konfiguration:
tts:
provider: "edge"
speed: 1.0
edge:
voice: "en-US-AriaNeural"
En kritisk detalj är utmatningsformatet. Telegrams röstbubblor är mest pålitliga när ljudet kodsas som OGG med Opus. Hermes förlitar sig på ffmpeg för dessa konverteringar i vanliga installationer. Om ffmpeg saknas visas svaren ofta som filbilagor istället för inline-röstbubblor.
Installera ffmpeg tidigt:
sudo apt install ffmpeg # Ubuntu/Debian
brew install ffmpeg # macOS
Plattformar och praktiska skillnader
Telegram
Telegram är den enklaste platsen att börja på. Röstmeddelanden är förstaklass på mobil, och interaktionsloopen är enkel: håll, prata, släpp, ta emot.
Installation:
# 1. Skapa en bot via @BotFather, hämta din token
# 2. Lägg till i ~/.hermes/.env:
TELEGRAM_BOT_TOKEN=***
TELEGRAM_ALLOWED_USERS=din_användar_id
# 3. Starta gatewayn
hermes gateway start
Öppna sedan Hermes-chatten, tryck på mikrofonen och prata. Om STT och TTS är aktiverade transkriberar Hermes din begäran, utför den och skickar ett röstsvvar.
Discord
Discord stöder två användbara lägen. Röstmeddelanden i DM:er eller kanaler är nära Telegrambeteendet.
Det mer avancerade alternativet är live-röstkanaler. I den floden kan Hermes delta kontinuerligt, transkribera tal och svara utan explicita meddelandebubblor.
Krav:
- Message Content Intent aktiverat i dina bot-inställningar
- Server Members Intent aktiverat
- Bot-behörigheter: Connect och Speak
Signal
Signal fungerar genom signal-cli-daemonprocessen. Röstmeddelanden använder fortfarande samma Hermes STT- och TTS-pipeline.
Ett användbart mönster är att köra signal-cli som en länkad enhet och använda Signal Note to Self. Du kan lämna ett röstmeddelande till dig själv och få Hermes-utmatning i samma tråd.
WhatsApp följer samma gatewaymodell. Ljudmeddelanden transkriberas automatiskt när connectorn är konfigurerad.
Behörigheter för mobilappar
Både iOS och Android behöver mikrofonåtkomst för den meddelandeapp du använder.
iOS: Inställningar → Telegram (eller Discord) → Behörigheter → Mikrofon → Tillåt. Aktivera Bakgrundsuppdatering av appar för omedelbara svar.
Android: Inställningar → Appar → Telegram → Behörigheter → Mikrofon → Tillåt. För Discord-röstkanaler, aktivera overlay-behörighet.
Att fästa Hermes-bot-chatten på hemskärmen hjälper — ett tryck för att börja prata.
Talmönster som fungerar pålitligt
Röstinteraktion har annan ergonomi än skrivning. Du kan inte enkelt klistra in loggar eller citera långa stacktraces, så struktur betyder allt:
- Var explicit. Säg åtgärden, omfånget och utmatningsformatet på en mening.
- Håll ett mål per meddelande. Dela upp flerstegsjobb i korta uppföljningar.
- Begränsa utmatningen. Be om numrerade åtgärder eller en 3-punkts sammanfattning när mobil läsbarhet är viktig.
- Håll det kort. Cirka 10 till 30 sekunder per meddelande transkriberas oftast bättre.
- Använd iterativa turordningar. Korrigera och förfin i nästa röstmeddelande istället för att överbelasta det första.
Exempel på prompter du kan tala
- “Kontrollera deploymentsloggar för den senaste timmen och rapportera endast kritiska fel.”
- “Skapa ett utkastdisposition för ett inlägg om OpenTelemetry-migrering med fem sektioner.”
- “Sammanfatta detta bug i tre punkter och föreslå den mest sannolika rotorsaken.”
- “Granska konfigurationen och berätta vad jag ska ändra för lägre transkriptionslatens.”
Vanliga användningsfall med konkreta resultat
- Operationer — “Kontrollera produktionshälsa och lista misslyckade tjänster.”
Resultatet är en fokuserad statusuppdatering du kan agera på omedelbart. - Skrivande — “Vandla dessa grova punkter till ett publicerbar introduktionsstycke.”
Resultatet är polerad text från muntliga anteckningar. - Debug-triage — “Utred denna TypeError och föreslå den första fixen att testa.”
Resultatet är ett konkret nästa steg innan du öppnar IDE:n. - Forskning — “Hitta tre källor nyligen ämne X och sammanfatta skillnader.”
Resultatet är en komprimerad briefing för senare djuparbete. - Automatisering — “Kör hemrutinen och bekräfta enhetsstatus.”
Resultatet är direkt åtgärd plus bekräftelse.
Felsökning
Röstmeddelanden transkriberas inte: Bekräfta stt.enabled: true i config.yaml. Verifiera att lokala beroenden är installerade. Starta sedan om med hermes gateway restart.
TTS svarar inte: Bekräfta att tts.provider är inställd. Om du använder en betald leverantör, verifiera API-nyckeln i .env. Validera aktuella röstinställningar från Hermes CLI-statuskommandon.
Dålig transkriptionskvalitet: Öka stt.local.model från base till small eller medium. Minska buller och prata i kortare segment. Om nödvändigt, byt till moln-STT för bättre precision.
Röstbubblor visas som filer på Telegram: Installera ffmpeg och starta om gatewayn. Detta är det vanligaste problemet.
Den fria stacken
För kostnadsmedvetna installationer är denna bas stark:
- STT: Lokal faster-whisper utan API-nyckel
- TTS: Edge TTS med bred spräck täckning
- Totalkostnad: $0
Detta är en betydande fördel jämfört med många stängda assistenter där röstkvalitet och automatisering snabbt blir betalda funktioner.
Om kvalitetskraven ökar, uppgradera ett lager i taget. Ofta ger STT-uppgraderingar den största omedelbara vinsten, och TTS-kvaliteten kan förbättras senare vid behov.
FAQ-ämnen i praktiken
De fyra vanligaste användarfrågorna är förutsägbara. De överlappar också med minnes- och profildesignproblem som täcks i Hermes Agent Memory System och Hermes produktionsinstallationsmönster.
- Om röstkommandon får samma verktygsåtkomst som text.
- Om en gratis stack är hållbar för dagligt bruk.
- Varför Telegram ibland visar bilagor istället för röstbubblor.
- Vilken lokal Whisper-modell som ska användas först.
Denna guide adresserar varje ett av dessa direkt i installation, justering och felsökningssektioner så att du snabbt kan gå från första körning till stabil daglig användning.
Snabbstart-Recap
# 1. Installera röstextran
pip install "hermes-agent[all]"
# 2. Sätt upp Telegram gateway
hermes gateway setup
# 3. Installera ffmpeg (krävs för Telegram-röstbubblor)
sudo apt install ffmpeg
# 4. Skicka ett röstmeddelande från din telefon
# Hermes transkriberar, bearbetar och svarar
Från dit, iterera baserat på din verkliga flaskhals. Om latens är problemet, justera modellstorlek eller moln-STT. Om ljudkvalitet är problemet, justera TTS-leverantör och röstpreset. Börja gratis, mät, uppgradera sedan endast där det faktiskt förbättrar ditt arbetsflöde.