O Hermes pode processar mensagens de voz telefônicas como comandos de texto?

Sim. O Hermes converte fala em texto, executa o mesmo pipeline de agentes com ferramentas e memória, e pode retornar respostas faladas quando o TTS está habilitado.

Qual stack gratuita funciona melhor para o modo de voz do Hermes?

Uma configuração prática e gratuita é usar o Faster Whisper local para transcrição e o Edge TTS para respostas. Não requer chaves de API pagas e funciona bem para o uso diário.

Por que o Telegram mostra o áudio como um arquivo em vez de uma bolha de mensagem de voz?

Os “voice bubbles” do Telegram geralmente exigem saída em OGG Opus. Instalar o ffmpeg e reiniciar o Hermes resolve a maioria dos casos em que as respostas aparecem como anexos.

Qual modelo do Whisper devo usar primeiro em um laptop?

Comece com a base para equilíbrio entre velocidade e precisão. Mude para pequena ou média se a qualidade do reconhecimento for fraca, ou para minúscula em hardware de baixo consumo.

É necessário o STT em nuvem para obter bons resultados?

Não. O STT em nuvem pode melhorar a precisão ou a latência em alguns ambientes, mas o Faster Whisper local geralmente é suficiente e mantém seu fluxo de trabalho simples.

Controle de Voz do Hermes pelo Seu Telefone

Fale com o Hermes pelo seu celular

Conteúdo da página

Você já conversa com o Hermes Agent pelo seu telefone usando texto. Agora você quer falar com ele diretamente e receber respostas faladas. Geralmente, essa é a melhor abordagem, especialmente se você já usa o Hermes como um assistente auto-hospedado persistente. Digitar prompts longos em uma tela pequena é lento e propenso a erros.

O modo de voz torna o Hermes prático nos momentos em que mais importa, enquanto você está caminhando, no transporte público ou fazendo trabalhos administrativos longe da sua mesa.

A boa notícia é que o modo de voz pode funcionar com zero APIs pagas. Um modelo local de faster-whisper cuida da transcrição e o Edge TTS cuida da saída falada gratuitamente. Este guia cobre a configuração, escolhas de provedores, diferenças entre plataformas, padrões de comandos práticos e os modos de falha que geralmente bloqueiam os usuários pela primeira vez.

Como o Pipeline Funciona

Três etapas, sem mágica:

Transcrição STT — Sua mensagem de voz se torna texto.
Raciocínio — O Hermes processa esse texto exatamente como uma solicitação digitada.
Síntese TTS — O texto da resposta é convertido de volta para áudio.

A distinção importante em relação aos assistentes de consumo é a profundidade de execução. O Hermes não está apenas respondendo a trivialidades. Ele pode chamar ferramentas, inspecionar arquivos, executar caminhos de código e continuar trabalhos em várias etapas a partir da memória. Na prática, isso significa que a voz pode acionar fluxos de trabalho reais, como triagem de incidentes, geração de rascunhos e depuração direcionada. Se você quiser o contexto de arquitetura mais amplo, o pilar de Sistemas de IA explica como esta camada de voz se encaixa na infraestrutura local de agentes.

O Que o Controle de Voz Faz de Melhor

Use o modo de voz quando a precisão do teclado não for necessária ainda:

Verificações operacionais enquanto estiver longe do seu laptop.
Captura de ideias para rascunhos, esboços e especificações brutas.
Triagem rápida de alertas e erros antes de um acompanhamento mais profundo no desktop.
Fluxos de trabalho com as mãos ocupadas onde falar é o único canal de entrada realista.

Entrada de Voz: Escolha um Provedor STT

Provedor	Custo	Chave API	Notas
Local faster-whisper	Grátis	Nenhuma	No dispositivo, modelo ~150 MB, 90+ idiomas
Groq Whisper	Tier gratuito	`GROQ_API_KEY`	Inferência em nuvem rápida
OpenAI Whisper	Pago	`VOICE_TOOLS_OPENAI_KEY`	Maior precisão
Mistral Voxtral	Pago	`MISTRAL_API_KEY`	Opção em nuvem alternativa

Configuração em ~/.hermes/config.yaml:

stt:
  enabled: true
  provider: local
  local:
    model: base  # tiny, base, small, medium, large-v3

Comece com local. Funciona imediatamente, lida com fala multilíngue e não adiciona custo recorrente. Mude para Groq ou OpenAI apenas se sua configuração local não puder atender aos seus requisitos de latência ou precisão. Para configuração em nível de comando e diagnósticos durante o teste de provedores, mantenha a folha de dicas do Hermes CLI por perto.

Seleção de Modelo Faster Whisper

Use uma progressão simples:

tiny para dispositivos de muito baixa potência onde a velocidade é mais importante.
base como equilíbrio padrão para laptops e servidores pequenos.
small quando sotaques, ambientes ruidosos ou termos de domínio reduzem a precisão.
medium ou large-v3 quando a qualidade é crítica e o orçamento de hardware é maior.

Se suas transcrições estiverem consistentemente erradas, aumente o tamanho do modelo primeiro antes de adicionar mais complexidade ao prompt.

Saída de Voz: Provedores TTS

Provedor	Qualidade	Custo	Melhor Para
Edge TTS (padrão)	Boa	Grátis	Início rápido, 322 vozes, 74 idiomas
ElevenLabs	Excelente	Pago	Qualidade premium, clonagem de voz
OpenAI TTS	Boa	Pago	Vozes naturais, 6 opções
MiniMax TTS	Excelente	Pago	Controle fino de velocidade/volume/tonalidade
NeuTTS	Boa	Grátis (local)	Totalmente offline, clonagem de voz

Configuração:

tts:
  provider: "edge"
  speed: 1.0

  edge:
    voice: "pt-BR-AntonioNeural"

Um detalhe crítico é o formato de saída. As bolhas de voz do Telegram são mais confiáveis quando o áudio é codificado como OGG com Opus. O Hermes depende do ffmpeg para essas conversões nas configurações comuns. Se o ffmpeg estiver ausente, as respostas geralmente aparecem como anexos de arquivo em vez de bolhas de voz inline.

Instale o ffmpeg cedo:

sudo apt install ffmpeg  # Ubuntu/Debian
brew install ffmpeg       # macOS

Fluxos de Trabalho de Plataforma e Diferenças Práticas

O Telegram é o lugar mais fácil para começar. As mensagens de voz são de primeira classe no mobile e o loop de interação é simples: segure, fale, solte, receba.

Configuração:

# 1. Crie um bot via @BotFather, obtenha seu token
# 2. Adicione ao ~/.hermes/.env:
TELEGRAM_BOT_TOKEN=***
TELEGRAM_ALLOWED_USERS=seu_user_id

# 3. Inicie o gateway
hermes gateway start

Em seguida, abra o chat do Hermes, toque no microfone e fale. Se o STT e o TTS estiverem habilitados, o Hermes transcreve sua solicitação, executa-a e envia uma resposta de voz.

Discord

O Discord suporta dois modos úteis. As mensagens de voz em MDs ou canais são semelhantes ao comportamento do Telegram.

A opção mais avançada são os canais de voz ao vivo. Nesse fluxo, o Hermes pode participar continuamente, transcrevendo a fala e respondendo sem bolhas de mensagem explícitas.

Requisitos:

Intent de Conteúdo de Mensagem habilitado nas configurações do seu bot
Intent de Membros do Servidor habilitado
Permissões do bot: Conectar e Falar

Signal

O Signal funciona através do daemon signal-cli. As mensagens de voz ainda usam o mesmo pipeline STT e TTS do Hermes.

Um padrão útil é executar o signal-cli como um dispositivo vinculado e usar o Signal Note to Self. Você pode deixar uma nota de voz para si mesmo e obter a saída do Hermes na mesma thread.

O WhatsApp segue o mesmo modelo de gateway. As mensagens de áudio transcrevem automaticamente assim que o conector é configurado.

Permissões do App Mobile

Tanto iOS quanto Android precisam de acesso ao microfone para o app de mensagens que você está usando.

iOS: Configurações → Telegram (ou Discord) → Permissões → Microfone → Permitir. Ative a Atualização de App em Segundo Plano para respostas instantâneas.

Android: Configurações → Apps → Telegram → Permissões → Microfone → Permitir. Para canais de voz do Discord, ative a permissão de sobreposição.

Fixar o chat do bot Hermes na tela inicial ajuda — um toque para começar a falar.

Padrões de Fala Que Funcionam Confiavelmente

A interação por voz tem ergonomia diferente da digitação. Você não pode colar logs ou citar rastros de pilha longos facilmente, então a estrutura importa:

Seja explícito. Diga a ação, o escopo e o formato de saída em uma frase.
Mantenha um objetivo por mensagem. Divida trabalhos em várias etapas em curtos follow-ups.
Restrinja a saída. Peça ações numeradas ou um resumo de 3 pontos quando a legibilidade mobile for importante.
Seja breve. Cerca de 10 a 30 segundos por mensagem geralmente transcrevem melhor.
Use turnos iterativos. Corrija e refine na próxima mensagem de voz em vez de sobrecarregar a primeira.

Exemplos de Prompts Que Você Pode Falar

“Verifique os logs de implantação da última hora e relatar apenas erros críticos.”
“Crie um esboço de rascunho para um post sobre migração do OpenTelemetry com cinco seções.”
“Resuma este bug em três tópicos e proponha a causa raiz mais provável.”
“Revise a configuração e me diga o que mudar para menor latência de transcrição.”

Casos de Uso Comuns com Resultados Concretos

Operações — “Verifique a saúde da produção e liste os serviços com falha.”
O resultado é uma atualização de status focada que você pode agir imediatamente.
Escrita — “Transforme estes pontos brutos em um parágrafo de introdução publicável.”
O resultado é texto polido a partir de notas faladas.
Triagem de depuração — “Investigue este TypeError e sugira a primeira correção para testar.”
O resultado é um próximo passo concreto antes de abrir o IDE.
Pesquisa — “Encontre três fontes recentes sobre o tópico X e resuma as diferenças.”
O resultado é um briefing compactado para trabalho profundo posterior.
Automação — “Execute a rotina doméstica e confirme os estados dos dispositivos.”
O resultado é ação direta mais confirmação.

Solução de Problemas

Mensagens de voz não transcrevendo: Confirme stt.enabled: true em config.yaml. Verifique se as dependências locais estão instaladas. Em seguida, reinicie com hermes gateway restart.

TTS não respondendo: Confirme se tts.provider está definido. Se estiver usando um provedor pago, verifique a chave API em .env. Valide as configurações de voz atuais dos comandos de status do Hermes CLI.

Qualidade de transcrição ruim: Aumente stt.local.model de base para small ou medium. Reduza o ruído e fale em segmentos mais curtos. Se necessário, mude para STT em nuvem para melhor precisão.

Bolhas de voz aparecendo como arquivos no Telegram: Instale o ffmpeg e reinicie o gateway. Este é o problema mais comum.

O Stack Gratuito

Para configurações conscientes do custo, esta base é forte:

STT: faster-whisper local sem chave API
TTS: Edge TTS com ampla cobertura de idiomas
Custo total: $0

Esta é uma vantagem significativa em relação a muitos assistentes fechados onde a qualidade de voz e a automação rapidamente se tornam recursos apenas pagos.

Se os requisitos de qualidade aumentarem, faça upgrade de uma camada de cada vez. Geralmente, upgrades de STT produzem o maior ganho imediato, e a qualidade do TTS pode ser melhorada posteriormente, se necessário.

Tópicos de FAQ na Prática

As quatro perguntas mais comuns dos usuários são previsíveis. Elas também se sobrepõem às preocupações de design de memória e perfil cobertas em Sistema de Memória do Hermes Agent e Padrões de configuração de produção do Hermes.

Se comandos de voz têm o mesmo acesso a ferramentas que o texto.
Se um stack gratuito é viável para uso diário.
Por que o Telegram às vezes mostra anexos em vez de bolhas de voz.
Qual modelo local Whisper deve ser usado primeiro.

Este guia aborda cada um desses diretamente nas seções de configuração, ajuste e solução de problemas para que você possa passar da primeira execução para o uso diário estável rapidamente.

Resumo do Início Rápido

# 1. Instale os extras de voz
pip install "hermes-agent[all]"

# 2. Configure o gateway do Telegram
hermes gateway setup

# 3. Instale o ffmpeg (necessário para bolhas de voz do Telegram)
sudo apt install ffmpeg

# 4. Envie uma mensagem de voz do seu telefone
# O Hermes transcreve, processa e responde

A partir daí, itere com base no seu gargalo real. Se a latência for o problema, ajuste o tamanho do modelo ou o STT em nuvem. Se a qualidade do áudio for o problema, ajuste o provedor TTS e o preset de voz. Comece grátis, meça e faça upgrade apenas onde realmente melhora seu fluxo de trabalho.