スマートフォンからのヘルメス音声コントロール
スマートフォンからHermesと会話する
スマートフォンからテキストでヘルメスエージェントとチャットすることはすでに可能でしょう。 今、あなたはエージェントと直接会話し、音声で返信を受け取りたいと考えています。 これは通常、正しい選択です。特にHermesを永続的な自己ホスト型アシスタントとして使用している場合には顕著です。 小さな画面で長いプロンプトをタイプするのは、時間がかかり、誤りも生じやすいものです。
音声モードは、ヘルメスを最も重要な瞬間、つまり歩きながら、通勤中、またはデスクから離れて事務作業をしているときに実用的に使えるようにします。

朗報は、音声モードは有料APIゼロで実行できることです。ローカルのfaster-whisperモデルが文字起こし(トランスクリプション)を担当し、Edge TTSが無料で音声出力を担当します。本ガイドでは、セットアップ、プロバイダーの選択、プラットフォーム間の違い、実用的なコマンドパターン、そして初めて使用するユーザーが通常直面する障害モードについて解説します。
パイプラインの仕組み
3つの段階、魔法のようなことはありません。
- 文字起こし(STT) — 音声メッセージがテキストに変換されます。
- 推論(Reasoning) — ヘルメスは、そのテキストをタイプされたリクエストと同じように処理します。
- 音声合成(TTS) — 返信テキストが再びオーディオに変換されます。
消費者向けアシスタントとの重要な違いは実行の深さです。ヘルメスは雑学の答えを返すだけではありません。ツールを呼び出し、ファイルを検査し、コードパスを実行し、メモリからマルチステップの作業を継続することができます。実際には、これは音声によってインシデントの一次対応、下稿の生成、ターゲット特定デバッグなどの実作業フローをトリガーできることを意味します。より広範なアーキテクチャの文脈を知りたい場合は、AI Systems pillarで、この音声レイヤーがローカルエージェントインフラストラクチャにどのように適合するかを説明しています。
音声制御が優れた用途
キーボードの精度が必要ないが、まだ:
- 運用チェック — ラップトップから離れている間。
- アイデアのキャッチ — 下書き、アウトライン、粗い仕様書用。
- 迅速な一次対応 — より深いデスクトップでのフォローアップを行う前のアラートやエラーの処理。
- 両手がふさがったワークフロー — 音声入力が唯一現実的な入力チャンネルとなる状況。
音声入力:STTプロバイダーの選択
| プロバイダー | コスト | APIキー | 備考 |
|---|---|---|---|
| ローカル faster-whisper | 無料 | なし | デバイス上、約150MBのモデル、90以上の言語 |
| Groq Whisper | フリー枠あり | GROQ_API_KEY |
高速なクラウド推論 |
| OpenAI Whisper | 有料 | VOICE_TOOLS_OPENAI_KEY |
最高精度 |
| Mistral Voxtral | 有料 | MISTRAL_API_KEY |
代替クラウドオプション |
~/.hermes/config.yaml での設定:
stt:
enabled: true
provider: local
local:
model: base # tiny, base, small, medium, large-v3
localから始めましょう。すぐに動作し、多言語のスピーチを処理でき、継続的なコストも追加されません。ローカルセットアップがレイテンシまたは精度の要件を満たせない場合にのみ、GroqまたはOpenAIに移行してください。プロバイダーをテストしている間のコマンドレベルのセットアップと診断については、Hermes CLIチートシートを近くに置いておいてください。
Faster Whisper モデルの選択
シンプルな段階的アプローチを使用します:
- tiny — 速度が最も重要な非常に低電力のデバイス向け。
- base — ラップトップや小型サーバー向けのデフォルトのバランス。
- small — アクセント、ノイズの多い環境、専門用語により精度が低下する場合。
- medium または large-v3 — 品質が重要で、ハードウェア予算がより高い場合。
文字起こしが一貫して誤っている場合は、プロンプトの複雑さを増やす前に、まずモデルのサイズをアップグレードしてください。
音声出力:TTSプロバイダー
| プロバイダー | 品質 | コスト | 最適用途 |
|---|---|---|---|
| Edge TTS (デフォルト) | 良い | 無料 | クイックスタート、322の音声、74言語 |
| ElevenLabs | 優れている | 有料 | プレミアム品質、音声クローニング |
| OpenAI TTS | 良い | 有料 | 自然な音声、6つのオプション |
| MiniMax TTS | 優れている | 有料 | 細やかな速度/音量/ピッチ制御 |
| NeuTTS | 良い | 無料 (ローカル) | 完全オフライン、音声クローニング |
設定:
tts:
provider: "edge"
speed: 1.0
edge:
voice: "en-US-AriaNeural"
重要な詳細の一つは出力形式です。Telegramの音声バブルは、オーディオがOGGでOpusエンコードされている最も信頼性が高いです。一般的なセットアップでは、ヘルメスはこれらの変換にffmpegに依存しています。ffmpegが欠落している場合、返信はインラインの音声バブルではなく、ファイル添付物として表示されることがよくあります。
ffmpegを早期にインストールしてください:
sudo apt install ffmpeg # Ubuntu/Debian
brew install ffmpeg # macOS
プラットフォームワークフローと実用的な違い
Telegram
Telegramは始めるのに最も簡単な場所です。モバイルでの音声メッセージはファーストクラスであり、相互作用ループはシンプルです。押して、話し、離して、受信します。
セットアップ:
# 1. @BotFather を介してボットを作成し、トークンを取得
# 2. ~/.hermes/.env に追加:
TELEGRAM_BOT_TOKEN=***
TELEGRAM_ALLOWED_USERS=your_user_id
# 3. ゲートウェイを開始
hermes gateway start
次に、ヘルメスチャットを開き、マイクトapGestureRecognizerをタップして話します。STTとTTSが有効になっている場合、ヘルメスはリクエストを文字起こし、実行し、音声返信を送信します。
Discord
Discordは2つの有用なモードをサポートしています。DMまたはチャンネルでの音声メッセージは、Telegramの動作とほぼ同じです。
より高度なオプションはライブボイスチャンネルです。このフローでは、ヘルメスは継続的に参加し、メッセージバブルなしでスピーチを文字起こしし、返信することができます。
要件:
- ボット設定で「メッセージ内容インテント」が有効になっていること
- 「サーバーメンバーインテント」が有効になっていること
- ボットの権限:Connect(接続)と Speak(話す)
Signal
Signalは signal-cli デーモンを介して動作します。音声メッセージは依然として同じヘルメスSTTおよびTTSパイプラインを使用します。
有用なパターンは、signal-cli をリンクされたデバイスとして実行し、Signalの「自分宛てメモ」を使用することです。自分に音声メモを残し、同じスレッドでヘルメス出力を得ることができます。
WhatsAppも同じゲートウェイモデルに従います。コネクタが構成されると、オーディオメッセージは自動的に文字起こしされます。
モバイルアプリの権限
iOSとAndroidの両方で、使用中のメッセージングアプリにマイクへのアクセス権が必要です。
iOS: 設定 → Telegram(またはDiscord)→ 権限 → マイク → 許可。即時の返信のために「バックグラウンドアプリリフレッシュ」を有効にします。
Android: 設定 → アプリ → Telegram → 権限 → マイク → 許可。Discordのボイスチャンネルの場合、オーバーレイ権限を有効にします。
ヘルメスボットチャットをホーム画面にピン留めしておくと便利です — タップ1回で話し始められます。
確実に機能する発話パターン
音声相互作用は、タイピングとは異なる人間工学を持っています。ログを貼り付けたり、長いスタックトレースを引用したりするのは簡単ではありません。したがって、構造が重要です:
- 明確にしましょう。 1つの文でアクション、範囲、出力形式を述べます。
- メッセージごとに1つの目的に絞りましょう。 マルチステップのジョブは短いフォローアップに分割します。
- 出力を制限しましょう。 モバイルでの読みやすさが重要な場合、番号付きのアクションや3点の要約を依頼します。
- 短く保ちましょう。 1メッセージあたり約10〜30秒が、通常、より良い文字起こしになります。
- 反復的なターンを使用しましょう。 最初のメッセージに負荷をかけすぎず、次の音声メッセージで修正し、洗練させます。
話せる例示プロンプト
- 「過去1時間のデプロイメントログを確認し、重大なエラーのみを報告してください。」
- 「OpenTelemetry移行に関する投稿の下書きアウトラインを、5つのセクションで作成してください。」
- 「このバグを3つの箇条書きで要約し、最も可能性の高い根本原因を提案してください。」
- 「構成を確認し、文字起こしのレイテンシを低くするために何を変更すべきか教えてください。」
具体的な成果を持つ一般的なユースケース
- 運用 — 「本番環境の健全性をチェックし、失敗したサービスをリストしてください。」
成果:すぐにアクションに取れる集中的なステータス更新。 - ライティング — 「これらの粗いポイントを、公開可能な導入パラグラフに変えてください。」
成果:口頭でのメモからの洗練されたテキスト。 - デバッグの一次対応 — 「このTypeErrorを調査し、最初にテストする修正を提案してください。」
成果:IDEを開く前の具体的な次のステップ。 - リサーチ — 「トピックXに関する最近の3つの情報源を見つけて違いを要約してください。」
成果:後の深い作業のための圧縮されたブリーフィング。 - オートメーション — 「ホームルーチンを実行し、デバイス状態を確認してください。」
成果:直接的なアクションと確認。
トラブルシューティング
音声メッセージが文字起こしされない: config.yaml で stt.enabled: true であることを確認します。ローカル依存関係がインストールされていることを検証します。その後、hermes gateway restart で再起動します。
TTSが反応しない: tts.provider が設定されていることを確認します。有料プロバイダーを使用している場合は、.env 内のAPIキーを検証します。ヘルメスCLIステータスコマンドから現在の音声設定を検証します。
文字起こしの品質が悪い: stt.local.model を base から small または medium にアップグレードします。ノイズを減らし、より短いセグメントで話してください。必要に応じて、より良い精度のためにクラウドSTTに切り替えます。
Telegramで音声バブルがファイルとして表示される: ffmpegをインストールし、ゲートウェイを再起動します。これが最も一般的な問題です。
フリースタック
コスト意識の高いセットアップでは、このベースラインは強力です:
- STT: APIキー不要のローカル faster-whisper
- TTS: 広範な言語カバーを持つ Edge TTS
- 総コスト: $0
これは、音声品質や自動化がすぐに有料機能のみとなる多くのクローズドアシスタントに対する意味のある優位性です。
品質要件が増加する場合、一度に1つのレイヤーをアップグレードします。通常、STTのアップグレードが最大の即座の恩恵を生み出し、必要に応じて後でTTSの品質を改善できます。
実践的なFAQトピック
最も一般的なユーザーの質問4つは予測可能です。それらはまた、Hermes Agent Memory System および Hermes production setup patterns でカバーされているメモリとプロファイル設計の懸念とも重複しています。
- 音声コマンドがテキストと同じツールアクセスを得るかどうか。
- フリースタックが日常使用に現実的かどうか。
- なぜTelegramが時々音声バブルの代わりに添付ファイルを表示するか。
- 最初にどのローカルWhisperモデルを使用すべきか。
本ガイドは、セットアップ、チューニング、トラブルシューティングの各セクションでこれらに直接対処し、最初の実行から安定した日常使用への移行を迅速に行えるようにしています。
クイックスタートの再確認
# 1. 音声エクストラをインストール
pip install "hermes-agent[all]"
# 2. Telegramゲートウェイを設定
hermes gateway setup
# 3. ffmpegをインストール (Telegram音声バブルに必須)
sudo apt install ffmpeg
# 4. 電話から音声メッセージを送信
# ヘルメスが文字起こし、処理、返信します
そこから、実際のボトルネックに基づいて反復します。レイテンシが問題である場合は、モデルサイズまたはクラウドSTTをチューニングします。オーディオ品質が問題である場合は、TTSプロバイダーと音声プリセットをチューニングします。無料で開始し、測定し、実際にワークフローを改善する箇所のみにアップグレードしてください。