Sterowanie głosem Hermes z telefonu
Pozwól, by Hermes rozmawiał z Tobą przez telefon
Już teraz rozmawiasz z agentem Hermes przez telefon za pomocą wiadomości tekstowych. Teraz chcesz rozmawiać z nim bezpośrednio i otrzymywać odpowiedzi w formie mowy. Zazwyczaj jest to słuszny krok, zwłaszcza jeśli już korzystasz z Hermesa jako trwałego, lokalnie hostowanego asystenta. Pisanie długich promptów na małym ekranie jest powolne i podatne na błędy.
Tryb głosowy sprawia, że Hermes staje się praktyczny w momentach, które mają największe znaczenie: podczas spaceru, dojazdów lub przy pracach administracyjnych z dala od biurka.

Dobra wiadomość jest taka, że tryb głosowy może działać bez żadnych płatnych interfejsów API. Lokalny model faster-whisper obsługuje transkrypcję, a Edge TTS zajmuje się darmową syntezą mowy. Ten przewodnik obejmuje konfigurację, wybór dostawców, różnice między platformami, praktyczne wzorce poleceń oraz typowe błędy, które często blokują nowych użytkowników.
Jak działa przepływ danych
Trzy etapy, bez magii:
- Transkrypcja STT — Twoja wiadomość głosowa zamieniana jest w tekst.
- Rozumowanie — Hermes przetwarza ten tekst dokładnie tak, jak żądanie napisane z klawiatury.
- Synteza TTS — Tekst odpowiedzi jest konwertowany z powrotem do audio.
Kluczowa różnica w porównaniu do asystentów konsumenckich polega na głębi wykonania. Hermes nie tylko odpowiada na trywialne pytania. Może wywoływać narzędzia, inspekcjonować pliki, uruchamiać ścieżki kodu i kontynuować wieloetapowe zadania z pamięci. W praktyce oznacza to, że głos może uruchamiać rzeczywiste przepływy pracy, takie jak wstępna ocyna incydentów, generowanie szkiców i ukierunkowane debugowanie. Jeśli chcesz poznać szerszy kontekst architektury, filary systemów AI wyjaśnia, jak ta warstwa głosowa integruje się z lokalną infrastrukturą agentów.
Do czego świetnie nadaje się sterowanie głosowe
Korzystaj z trybu głosowego, gdy precyzja klawiatury nie jest wymagana:
- Sprawdzanie stanu operacyjnego podczas bycia z dala od laptopa.
- Rejestrowanie pomysłów w celu stworzenia szkiców, planów i wstępnych specyfikacji.
- Szybka wstępna ocena alertów i błędów przed głębszą analizą na komputerze.
- Prace z zajętymi rękami, gdzie mówienie jest jedynym realistycznym kanałem wejściowym.
Wejście głosowe: Wybór dostawcy STT
| Dostawca | Koszt | Klucz API | Uwagi |
|---|---|---|---|
| Lokalny faster-whisper | Darmowy | Brak | Na urządzeniu, model ~150 MB, ponad 90 języków |
| Groq Whisper | Warstwa darmowa | GROQ_API_KEY |
Szybka inferencja w chmurze |
| OpenAI Whisper | Płatny | VOICE_TOOLS_OPENAI_KEY |
Najwyższa dokładność |
| Mistral Voxtral | Płatny | MISTRAL_API_KEY |
Alternatywna opcja chmurowa |
Konfiguracja w pliku ~/.hermes/config.yaml:
stt:
enabled: true
provider: local
local:
model: base # tiny, base, small, medium, large-v3
Zacznij od opcji local. Działa od razu, obsługuje mowę wielojęzyczną i nie generuje żadnych bieżących kosztów. Przejść do Groq lub OpenAI tylko wtedy, gdy Twoja lokalna konfiguracja nie spełnia wymagań dotyczących opóźnienia lub dokładności. Przy konfiguracji na poziomie poleceń i diagnostyce podczas testowania dostawców, miej pod ręką krótki przewodnik CLI Hermes.
Wybór modelu Faster Whisper
Stosuj prostą progresję:
- tiny na urządzenia o bardzo niskiej mocy, gdzie prędkość ma największe znaczenie.
- base jako domyślne równowaga dla laptopów i małych serwerów.
- small gdy akcenty, głośne otoczenie lub terminologia branżowa obniżają dokładność.
- medium lub large-v3 gdy jakość jest kluczowa, a budżet sprzętowy jest wyższy.
Jeśli Twoje transkrypcje są stale błędne, najpierw zwiększ rozmiar modelu, zanim dodasz więcej złożoności do promptu.
Wyjście głosowe: Dostawcy TTS
| Dostawca | Jakość | Koszt | Najlepsze do |
|---|---|---|---|
| Edge TTS (domyślnie) | Dobra | Darmowy | Szybki start, 322 głosy, 74 języki |
| ElevenLabs | Doskonała | Płatny | Premium jakość, klonowanie głosu |
| OpenAI TTS | Dobra | Płatny | Naturalne głosy, 6 opcji |
| MiniMax TTS | Doskonała | Płatny | Precyzyjna kontrola prędkości/głośności/wysokości |
| NeuTTS | Dobra | Darmowy (lokalny) | W pełni offline, klonowanie głosu |
Konfiguracja:
tts:
provider: "edge"
speed: 1.0
edge:
voice: "en-US-AriaNeural"
Jednym kluczowym szczegółem jest format wyjściowy. Głosowe bąbelki w Telegramie są najbardziej niezawodne, gdy audio jest zakodowane jako OGG z Opus. Hermes opiera się na ffmpeg przy tych konwersjach w powszechnych konfiguracjach. Jeśli ffmpeg jest nieobecny, odpowiedzi często pojawiają się jako załączniki plików zamiast wbudowanych bąbelków głosowych.
Zainstaluj ffmpeg wczesnie:
sudo apt install ffmpeg # Ubuntu/Debian
brew install ffmpeg # macOS
Przepływy pracy na platformach i praktyczne różnice
Telegram
Telegram to najprotsze miejsce do rozpoczęcia. Wiadomości głosowe są pierwszoklasowe na urządzeniach mobilnych, a pętla interakcji jest prosta: przytrzymaj, mów, puść, odbierz.
Konfiguracja:
# 1. Stwórz bota przez @BotFather, otrzymaj swój token
# 2. Dodaj do ~/.hermes/.env:
TELEGRAM_BOT_TOKEN=***
TELEGRAM_ALLOWED_USERS=twoje_user_id
# 3. Uruchom bramkę
hermes gateway start
Następnie otwórz czat Hermes, naciśnij mikrofon i mów. Jeśli STT i TTS są włączone, Hermes transkrybuje Twoje żądanie, wykonuje je i wysyła głosową odpowiedź.
Discord
Discord obsługuje dwa przydatne tryby. Wiadomości głosowe w wiadomościach prywatnych (DM) lub kanałach są zbliżone do zachowania w Telegramie.
Bardziej zaawansowaną opcją są żywe kanały głosowe. W tym przepływie Hermes może uczestniczyć ciągłe, transkrybując mowę i odpowiadając bez jawnych bąbelków wiadomości.
Wymagania:
- Włączona intencja zawartości wiadomości (Message Content Intent) w ustawieniach bota
- Włączona intencja członków serwera (Server Members Intent)
- Uprawnienia bota: Połącz i Mów (Connect and Speak)
Signal
Signal działa przez demon signal-cli. Wiadomości głosowe nadal korzystają z tego samego przepływu Hermes STT i TTS.
Przydatnym wzorcem jest uruchamianie signal-cli jako połączonego urządzenia i używanie Signal Note to Self. Możesz zostawić sobie głosową notatkę i otrzymać wyjście Hermes w tym samym wątku.
WhatsApp podąża za tym samym modelem bramki. Wiadomości audio są transkrybowane automatycznie po skonfigurowaniu konektora.
Uprawnienia aplikacji mobilnej
Szar iOS jak i Android wymagają dostępu do mikrofonu dla używanej aplikacji komunikacyjnej.
iOS: Ustawienia → Telegram (lub Discord) → Uprawnienia → Mikrofon → Zezwalaj. Włącz Odświeżanie w tle aplikacji (Background App Refresh) dla natychmiastowych odpowiedzi.
Android: Ustawienia → Aplikacje → Telegram → Uprawnienia → Mikrofon → Zezwalaj. Dla kanałów głosowych Discord, włącz uprawnienie nakładki (overlay permission).
Przypinanie czatu bota Hermes do ekranu głównego pomaga — jedno dotknięcie, aby zacząć mówić.
Wzorce mówienia, które działają niezawodnie
Interakcja głosowa ma inną ergonomię niż pisanie. Nie można łatwo wkleić logów lub cytować długich śladów stosu (stack traces), więc struktura ma znaczenie:
- Bądź explicitny. Powiedz działanie, zakres i format wyjściowy w jednym zdaniu.
- Trzymaj się jednego celu na wiadomość. Podziel wieloetapowe zadania na krótkie follow-upy.
- Ogranicz wyjście. Poproś o ponumerowane działania lub 3-punktowe podsumowanie, gdy czytelność na urządzeniu mobilnym ma znaczenie.
- Bądź krótki. Około 10 do 30 sekund na wiadomość zazwyczaj transkrybuje się lepiej.
- Używaj iteracyjnych tur. Korektuj i udoskonaj w następnej wiadomości głosowej zamiast przeciążać pierwszą.
Przykładowe prompty, które możesz wypowiedzieć
- “Sprawdź logi wdrożeń za ostatnią godzinę i zgłoś tylko krytyczne błędy.”
- “Stwórz szkic planu posta o migracji OpenTelemetry z pięcioma sekcjami.”
- “Podsumuj ten bug w trzech punktach i zaproponuj najbardziej prawdopodobną przyczynę źródłową.”
- “Przejrzyj konfigurację i powiedz mi, co zmienić dla niższego opóźnienia transkrypcji.”
Typowe przypadki użycia z konkretnymi rezultatami
- Operacje — “Sprawdź zdrowie produkcji i wylistuj nieudane usługi.”
Rezultatem jest skoncentrowane aktualizacja statusu, na którą możesz natychmiast zareagować. - Pisanie — “Przekształć te wstępne punkty w publikowalny akapit wstępny.”
Rezultatem jest odpolitykowany tekst z głosowych notatek. - Wstępna ocena debugowania — “Zbadaj ten TypeError i zasugeruj pierwszą naprawę do przetestowania.”
Rezultatem jest konkretny następny krok przed otwarciem IDE. - Badania — “Znajdź trzy ostatnie źródła na temat X i podsumuj różnice.”
Rezultatem jest skompresowane briefingu do późniejszej głębokiej pracy. - Automatyzacja — “Uruchom rutinę domową i potwierdź stany urządzeń.”
Rezultatem jest bezpośrednia akcja plus potwierdzenie.
Rozwiązywanie problemów
Wiadomości głosowe nie są transkrybowane: Potwierdź stt.enabled: true w config.yaml. Zweryfikuj, czy lokalne zależności są zainstalowane. Następnie uruchom ponownie z hermes gateway restart.
TTS nie odpowiada: Potwierdź, czy tts.provider jest ustawiony. Jeśli korzystasz z płatnego dostawcy, zweryfikuj klucz API w .env. Zwaliduj bieżące ustawienia głosu z poleceń statusowych CLI Hermes.
Niska jakość transkrypcji: Zwiększ stt.local.model z base do small lub medium. Zredukuj szum i mów krótszymi segmentami. Jeśli konieczne, przełącz się na chmurowe STT dla lepszej dokładności.
Bąbelki głosowe pojawiają się jako pliki w Telegramie: Zainstaluj ffmpeg i uruchom ponownie bramkę. To jest najbardziej powszechny problem.
Darmowy stos technologiczny
Dla konfiguracji świadomych kosztów, ta baza jest silna:
- STT: Lokalny faster-whisper bez klucza API
- TTS: Edge TTS z szerokim pokryciem językowym
- Całkowity koszt: $0
Jest to znacząca przewaga nad wieloma zamkniętymi asystentami, gdzie jakość głosu i automatyzacja szybko stają się funkcjami wyłącznie płatnymi.
Jeśli wymagania dotyczące jakości wzrosną, ulepszaj jedną warstwę na raz. Zazwyczaj ulepszenia STT dają największy natychmiastowy zysk, a jakość TTS można poprawić później, jeśli to konieczne.
Najczęściej zadawane pytania w praktyce
Cztery najczęstsze pytania użytkowników są przewidywalne. Nakładają się one również na kwestie dotyczące pamięci i projektowania profili omówione w Systemie pamięci agenta Hermes i Wzorcach produkcyjnych konfiguracji Hermes.
- Czy polecenia głosowe mają ten sam dostęp do narzędzi co tekstowe.
- Czy darmowy stos jest viabilny do codziennego użytku.
- Dlaczego Telegram czasem pokazuje załączniki zamiast bąbelków głosowych.
- Który lokalny model Whisper powinien być użyty jako pierwszy.
Ten przewodnik adresuje każde z tych pytań bezpośrednio w sekcjach konfiguracji, strojenia i rozwiązywania problemów, abyś mógł szybko przejść od pierwszego uruchomienia do stabilnego codziennego użytku.
Szybki start – podsumowanie
# 1. Zainstaluj dodatki głosowe
pip install "hermes-agent[all]"
# 2. Skonfiguruj bramkę Telegram
hermes gateway setup
# 3. Zainstaluj ffmpeg (wymagane dla bąbelków głosowych w Telegramie)
sudo apt install ffmpeg
# 4. Wyślij wiadomość głosową z telefonu
# Hermes transkrybuje, przetwarza i odpowiada
Stąd iteruj w oparciu o swój prawdziwą butelkę (wąskie gardło). Jeśli problemem jest opóźnienie, dostroń rozmiar modelu lub chmurowe STT. Jeśli problemem jest jakość audio, dostroń dostawcę TTS i preset głosu. Zacznij od darmowych rozwiązań, zmierz, a następnie ulepszaj tylko tam, gdzie faktycznie poprawia to Twój przepływ pracy.