Controle de Voz do Hermes pelo Seu Telefone
Fale com o Hermes pelo seu celular
Você já conversa com o Hermes Agent pelo seu telefone usando texto. Agora você quer falar com ele diretamente e receber respostas faladas. Geralmente, essa é a melhor abordagem, especialmente se você já usa o Hermes como um assistente auto-hospedado persistente. Digitar prompts longos em uma tela pequena é lento e propenso a erros.
O modo de voz torna o Hermes prático nos momentos em que mais importa, enquanto você está caminhando, no transporte público ou fazendo trabalhos administrativos longe da sua mesa.

A boa notícia é que o modo de voz pode funcionar com zero APIs pagas. Um modelo local de faster-whisper cuida da transcrição e o Edge TTS cuida da saída falada gratuitamente. Este guia cobre a configuração, escolhas de provedores, diferenças entre plataformas, padrões de comandos práticos e os modos de falha que geralmente bloqueiam os usuários pela primeira vez.
Como o Pipeline Funciona
Três etapas, sem mágica:
- Transcrição STT — Sua mensagem de voz se torna texto.
- Raciocínio — O Hermes processa esse texto exatamente como uma solicitação digitada.
- Síntese TTS — O texto da resposta é convertido de volta para áudio.
A distinção importante em relação aos assistentes de consumo é a profundidade de execução. O Hermes não está apenas respondendo a trivialidades. Ele pode chamar ferramentas, inspecionar arquivos, executar caminhos de código e continuar trabalhos em várias etapas a partir da memória. Na prática, isso significa que a voz pode acionar fluxos de trabalho reais, como triagem de incidentes, geração de rascunhos e depuração direcionada. Se você quiser o contexto de arquitetura mais amplo, o pilar de Sistemas de IA explica como esta camada de voz se encaixa na infraestrutura local de agentes.
O Que o Controle de Voz Faz de Melhor
Use o modo de voz quando a precisão do teclado não for necessária ainda:
- Verificações operacionais enquanto estiver longe do seu laptop.
- Captura de ideias para rascunhos, esboços e especificações brutas.
- Triagem rápida de alertas e erros antes de um acompanhamento mais profundo no desktop.
- Fluxos de trabalho com as mãos ocupadas onde falar é o único canal de entrada realista.
Entrada de Voz: Escolha um Provedor STT
| Provedor | Custo | Chave API | Notas |
|---|---|---|---|
| Local faster-whisper | Grátis | Nenhuma | No dispositivo, modelo ~150 MB, 90+ idiomas |
| Groq Whisper | Tier gratuito | GROQ_API_KEY |
Inferência em nuvem rápida |
| OpenAI Whisper | Pago | VOICE_TOOLS_OPENAI_KEY |
Maior precisão |
| Mistral Voxtral | Pago | MISTRAL_API_KEY |
Opção em nuvem alternativa |
Configuração em ~/.hermes/config.yaml:
stt:
enabled: true
provider: local
local:
model: base # tiny, base, small, medium, large-v3
Comece com local. Funciona imediatamente, lida com fala multilíngue e não adiciona custo recorrente. Mude para Groq ou OpenAI apenas se sua configuração local não puder atender aos seus requisitos de latência ou precisão. Para configuração em nível de comando e diagnósticos durante o teste de provedores, mantenha a folha de dicas do Hermes CLI por perto.
Seleção de Modelo Faster Whisper
Use uma progressão simples:
- tiny para dispositivos de muito baixa potência onde a velocidade é mais importante.
- base como equilíbrio padrão para laptops e servidores pequenos.
- small quando sotaques, ambientes ruidosos ou termos de domínio reduzem a precisão.
- medium ou large-v3 quando a qualidade é crítica e o orçamento de hardware é maior.
Se suas transcrições estiverem consistentemente erradas, aumente o tamanho do modelo primeiro antes de adicionar mais complexidade ao prompt.
Saída de Voz: Provedores TTS
| Provedor | Qualidade | Custo | Melhor Para |
|---|---|---|---|
| Edge TTS (padrão) | Boa | Grátis | Início rápido, 322 vozes, 74 idiomas |
| ElevenLabs | Excelente | Pago | Qualidade premium, clonagem de voz |
| OpenAI TTS | Boa | Pago | Vozes naturais, 6 opções |
| MiniMax TTS | Excelente | Pago | Controle fino de velocidade/volume/tonalidade |
| NeuTTS | Boa | Grátis (local) | Totalmente offline, clonagem de voz |
Configuração:
tts:
provider: "edge"
speed: 1.0
edge:
voice: "pt-BR-AntonioNeural"
Um detalhe crítico é o formato de saída. As bolhas de voz do Telegram são mais confiáveis quando o áudio é codificado como OGG com Opus. O Hermes depende do ffmpeg para essas conversões nas configurações comuns. Se o ffmpeg estiver ausente, as respostas geralmente aparecem como anexos de arquivo em vez de bolhas de voz inline.
Instale o ffmpeg cedo:
sudo apt install ffmpeg # Ubuntu/Debian
brew install ffmpeg # macOS
Fluxos de Trabalho de Plataforma e Diferenças Práticas
Telegram
O Telegram é o lugar mais fácil para começar. As mensagens de voz são de primeira classe no mobile e o loop de interação é simples: segure, fale, solte, receba.
Configuração:
# 1. Crie um bot via @BotFather, obtenha seu token
# 2. Adicione ao ~/.hermes/.env:
TELEGRAM_BOT_TOKEN=***
TELEGRAM_ALLOWED_USERS=seu_user_id
# 3. Inicie o gateway
hermes gateway start
Em seguida, abra o chat do Hermes, toque no microfone e fale. Se o STT e o TTS estiverem habilitados, o Hermes transcreve sua solicitação, executa-a e envia uma resposta de voz.
Discord
O Discord suporta dois modos úteis. As mensagens de voz em MDs ou canais são semelhantes ao comportamento do Telegram.
A opção mais avançada são os canais de voz ao vivo. Nesse fluxo, o Hermes pode participar continuamente, transcrevendo a fala e respondendo sem bolhas de mensagem explícitas.
Requisitos:
- Intent de Conteúdo de Mensagem habilitado nas configurações do seu bot
- Intent de Membros do Servidor habilitado
- Permissões do bot: Conectar e Falar
Signal
O Signal funciona através do daemon signal-cli. As mensagens de voz ainda usam o mesmo pipeline STT e TTS do Hermes.
Um padrão útil é executar o signal-cli como um dispositivo vinculado e usar o Signal Note to Self. Você pode deixar uma nota de voz para si mesmo e obter a saída do Hermes na mesma thread.
O WhatsApp segue o mesmo modelo de gateway. As mensagens de áudio transcrevem automaticamente assim que o conector é configurado.
Permissões do App Mobile
Tanto iOS quanto Android precisam de acesso ao microfone para o app de mensagens que você está usando.
iOS: Configurações → Telegram (ou Discord) → Permissões → Microfone → Permitir. Ative a Atualização de App em Segundo Plano para respostas instantâneas.
Android: Configurações → Apps → Telegram → Permissões → Microfone → Permitir. Para canais de voz do Discord, ative a permissão de sobreposição.
Fixar o chat do bot Hermes na tela inicial ajuda — um toque para começar a falar.
Padrões de Fala Que Funcionam Confiavelmente
A interação por voz tem ergonomia diferente da digitação. Você não pode colar logs ou citar rastros de pilha longos facilmente, então a estrutura importa:
- Seja explícito. Diga a ação, o escopo e o formato de saída em uma frase.
- Mantenha um objetivo por mensagem. Divida trabalhos em várias etapas em curtos follow-ups.
- Restrinja a saída. Peça ações numeradas ou um resumo de 3 pontos quando a legibilidade mobile for importante.
- Seja breve. Cerca de 10 a 30 segundos por mensagem geralmente transcrevem melhor.
- Use turnos iterativos. Corrija e refine na próxima mensagem de voz em vez de sobrecarregar a primeira.
Exemplos de Prompts Que Você Pode Falar
- “Verifique os logs de implantação da última hora e relatar apenas erros críticos.”
- “Crie um esboço de rascunho para um post sobre migração do OpenTelemetry com cinco seções.”
- “Resuma este bug em três tópicos e proponha a causa raiz mais provável.”
- “Revise a configuração e me diga o que mudar para menor latência de transcrição.”
Casos de Uso Comuns com Resultados Concretos
- Operações — “Verifique a saúde da produção e liste os serviços com falha.”
O resultado é uma atualização de status focada que você pode agir imediatamente. - Escrita — “Transforme estes pontos brutos em um parágrafo de introdução publicável.”
O resultado é texto polido a partir de notas faladas. - Triagem de depuração — “Investigue este TypeError e sugira a primeira correção para testar.”
O resultado é um próximo passo concreto antes de abrir o IDE. - Pesquisa — “Encontre três fontes recentes sobre o tópico X e resuma as diferenças.”
O resultado é um briefing compactado para trabalho profundo posterior. - Automação — “Execute a rotina doméstica e confirme os estados dos dispositivos.”
O resultado é ação direta mais confirmação.
Solução de Problemas
Mensagens de voz não transcrevendo: Confirme stt.enabled: true em config.yaml. Verifique se as dependências locais estão instaladas. Em seguida, reinicie com hermes gateway restart.
TTS não respondendo: Confirme se tts.provider está definido. Se estiver usando um provedor pago, verifique a chave API em .env. Valide as configurações de voz atuais dos comandos de status do Hermes CLI.
Qualidade de transcrição ruim: Aumente stt.local.model de base para small ou medium. Reduza o ruído e fale em segmentos mais curtos. Se necessário, mude para STT em nuvem para melhor precisão.
Bolhas de voz aparecendo como arquivos no Telegram: Instale o ffmpeg e reinicie o gateway. Este é o problema mais comum.
O Stack Gratuito
Para configurações conscientes do custo, esta base é forte:
- STT: faster-whisper local sem chave API
- TTS: Edge TTS com ampla cobertura de idiomas
- Custo total: $0
Esta é uma vantagem significativa em relação a muitos assistentes fechados onde a qualidade de voz e a automação rapidamente se tornam recursos apenas pagos.
Se os requisitos de qualidade aumentarem, faça upgrade de uma camada de cada vez. Geralmente, upgrades de STT produzem o maior ganho imediato, e a qualidade do TTS pode ser melhorada posteriormente, se necessário.
Tópicos de FAQ na Prática
As quatro perguntas mais comuns dos usuários são previsíveis. Elas também se sobrepõem às preocupações de design de memória e perfil cobertas em Sistema de Memória do Hermes Agent e Padrões de configuração de produção do Hermes.
- Se comandos de voz têm o mesmo acesso a ferramentas que o texto.
- Se um stack gratuito é viável para uso diário.
- Por que o Telegram às vezes mostra anexos em vez de bolhas de voz.
- Qual modelo local Whisper deve ser usado primeiro.
Este guia aborda cada um desses diretamente nas seções de configuração, ajuste e solução de problemas para que você possa passar da primeira execução para o uso diário estável rapidamente.
Resumo do Início Rápido
# 1. Instale os extras de voz
pip install "hermes-agent[all]"
# 2. Configure o gateway do Telegram
hermes gateway setup
# 3. Instale o ffmpeg (necessário para bolhas de voz do Telegram)
sudo apt install ffmpeg
# 4. Envie uma mensagem de voz do seu telefone
# O Hermes transcreve, processa e responde
A partir daí, itere com base no seu gargalo real. Se a latência for o problema, ajuste o tamanho do modelo ou o STT em nuvem. Se a qualidade do áudio for o problema, ajuste o provedor TTS e o preset de voz. Comece grátis, meça e faça upgrade apenas onde realmente melhora seu fluxo de trabalho.