¿Puede Hermes procesar mensajes de voz telefónicos como comandos de texto?

Sí. Hermes convierte el discurso en texto, ejecuta la misma canalización de agentes con herramientas y memoria, y puede devolver respuestas habladas cuando TTS está habilitado.

¿Qué stack gratuito funciona mejor para el modo de voz de Hermes?

Una configuración práctica y gratuita utiliza local faster whisper para la transcripción y Edge TTS para las respuestas. No requiere claves de API de pago y funciona bien para el uso diario.

¿Por qué Telegram muestra el audio como un archivo en lugar de un globo de voz?

Los botones de voz de Telegram suelen requerir salida OGG Opus. Instalar ffmpeg y reiniciar Hermes soluciona la mayoría de los casos en los que las respuestas aparecen como archivos adjuntos.

¿Con qué modelo de Whisper debería comenzar en una laptop?

Comience con el modelo base para lograr un equilibrio entre velocidad y precisión. Cambie a small o medium si la calidad de reconocimiento es insuficiente, o a tiny para dispositivos con recursos limitados.

¿Es necesario el STT en la nube para obtener buenos resultados?

No. El STT en la nube puede mejorar la precisión o la latencia en algunos entornos, pero Faster Whisper local suele ser suficiente y mantiene su flujo de trabajo simple.

Control de voz de Hermes desde tu teléfono

Habla con Hermes desde tu teléfono

Índice

Ya puedes chatear con Hermes Agent desde tu teléfono usando texto. Ahora quieres hablar con él directamente y recibir respuestas habladas. Eso suele ser la mejor opción, especialmente si ya usas Hermes como asistente autohospedado persistente. Escribir instrucciones largas en una pantalla pequeña es lento y propenso a errores.

El modo de voz hace que Hermes sea práctico en los momentos que más importan, mientras caminas, vas en transporte o realizas tareas administrativas lejos de tu escritorio.

La buena noticia es que el modo de voz puede funcionar sin APIs de pago. Un modelo local de faster-whisper se encarga de la transcripción, y Edge TTS maneja la salida de voz de forma gratuita. Esta guía cubre la configuración, opciones de proveedores, diferencias entre plataformas, patrones de comandos prácticos y los modos de fallo que suelen bloquear a los usuarios por primera vez.

Cómo funciona el flujo de trabajo

Tres etapas, sin magia:

Transcripción STT — Tu mensaje de voz se convierte en texto.
Razonamiento — Hermes procesa ese texto exactamente como una solicitud escrita.
Síntesis TTS — El texto de respuesta se convierte de nuevo en audio.

La distinción importante con respecto a los asistentes de consumo es la profundidad de ejecución. Hermes no solo responde preguntas triviales. Puede llamar a herramientas, inspeccionar archivos, ejecutar rutas de código y continuar trabajos de múltiples pasos desde la memoria. En la práctica, eso significa que la voz puede desencadenar flujos de trabajo reales como la clasificación de incidentes, generación de borradores y depuración específica. Si quieres el contexto de la arquitectura más amplia, el pilar de Sistemas de IA explica cómo esta capa de voz se integra en la infraestructura de agentes local.

Para qué es ideal el control por voz

Usa el modo de voz cuando no se requiera precisión de teclado:

Verificaciones operativas mientras estás lejos de tu portátil.
Captura de ideas para borradores, esquemas y especificaciones preliminares.
Clasificación rápida de alertas y errores antes de un seguimiento más profundo en el escritorio.
Flujos de trabajo con manos ocupadas donde hablar es el único canal de entrada realista.

Entrada de voz: Elige un proveedor de STT

Proveedor	Costo	Clave API	Notas
Local faster-whisper	Gratuito	Ninguna	En el dispositivo, modelo de ~150 MB, +90 idiomas
Groq Whisper	Nivel gratuito	`GROQ_API_KEY`	Inferencia en la nube rápida
OpenAI Whisper	De pago	`VOICE_TOOLS_OPENAI_KEY`	Mayor precisión
Mistral Voxtral	De pago	`MISTRAL_API_KEY`	Opción alternativa en la nube

Configuración en ~/.hermes/config.yaml:

stt:
  enabled: true
  provider: local
  local:
    model: base  # tiny, base, small, medium, large-v3

Comienza con local. Funciona de inmediato, maneja voz multilingüe y no añade costos recurrentes. Pasa a Groq o OpenAI solo si tu configuración local no puede cumplir con tus requisitos de latencia o precisión. Para la configuración a nivel de comando y el diagnóstico durante la prueba de proveedores, mantén cerca la hoja de referencia de la CLI de Hermes.

Selección del modelo Faster Whisper

Usa una progresión simple:

tiny para dispositivos de muy bajo consumo donde la velocidad es lo más importante.
base como equilibrio por defecto para portátiles y servidores pequeños.
small cuando los acentos, entornos ruidosos o términos del dominio reducen la precisión.
medium o large-v3 cuando la calidad es crítica y el presupuesto de hardware es mayor.

Si tus transcripciones son consistentemente incorrectas, aumenta el tamaño del modelo primero antes de añadir más complejidad a la instrucción.

Salida de voz: Proveedores de TTS

Proveedor	Calidad	Costo	Ideal para
Edge TTS (predeterminado)	Buena	Gratuito	Inicio rápido, 322 voces, 74 idiomas
ElevenLabs	Excelente	De pago	Calidad premium, clonación de voz
OpenAI TTS	Buena	De pago	Voces naturales, 6 opciones
MiniMax TTS	Excelente	De pago	Control fino de velocidad/volumen/tono
NeuTTS	Buena	Gratuito (local)	Totalmente sin conexión, clonación de voz

Configuración:

tts:
  provider: "edge"
  speed: 1.0

  edge:
    voice: "en-US-AriaNeural"

Un detalle crítico es el formato de salida. Las burbujas de voz de Telegram son más fiables cuando el audio está codificado como OGG con Opus. Hermes depende de ffmpeg para estas conversiones en configuraciones comunes. Si falta ffmpeg, las respuestas a menudo aparecen como archivos adjuntos en lugar de burbujas de voz en línea.

Instala ffmpeg temprano:

sudo apt install ffmpeg  # Ubuntu/Debian
brew install ffmpeg       # macOS

Flujos de trabajo de plataforma y diferencias prácticas

Telegram es el lugar más fácil para comenzar. Los mensajes de voz son de primera categoría en móviles, y el ciclo de interacción es simple: mantener, hablar, soltar, recibir.

Configuración:

# 1. Crea un bot vía @BotFather, obtén tu token
# 2. Añade a ~/.hermes/.env:
TELEGRAM_BOT_TOKEN=***
TELEGRAM_ALLOWED_USERS=your_user_id

# 3. Inicia la puerta de enlace
hermes gateway start

Luego abre el chat de Hermes, toca el micrófono y habla. Si STT y TTS están habilitados, Hermes transcribe tu solicitud, la ejecuta y envía una respuesta de voz.

Discord

Discord soporta dos modos útiles. Los mensajes de voz en mensajes directos o canales son cercanos al comportamiento de Telegram.

La opción más avanzada son los canales de voz en vivo. En ese flujo, Hermes puede participar continuamente, transcribiendo el habla y respondiendo sin burbujas de mensajes explícitas.

Requisitos:

Intención de Contenido de Mensaje habilitada en la configuración de tu bot
Intención de Miembros del Servidor habilitada
Permisos del bot: Conectar y Hablar

Signal

Signal funciona a través del daemon signal-cli. Los mensajes de voz aún usan el mismo flujo de STT y TTS de Hermes.

Un patrón útil es ejecutar signal-cli como un dispositivo vinculado y usar Nota para mí mismo en Signal. Puedes dejarte una nota de voz y obtener la salida de Hermes en el mismo hilo.

WhatsApp sigue el mismo modelo de puerta de enlace. Los mensajes de audio se transcriben automáticamente una vez que el conector está configurado.

Permisos de la aplicación móvil

Tanto iOS como Android necesitan acceso al micrófono para la aplicación de mensajería que estés usando.

iOS: Configuración → Telegram (o Discord) → Permisos → Micrófono → Permitir. Habilita la Actualización de Aplicaciones en Segundo Plano para respuestas instantáneas.

Android: Configuración → Aplicaciones → Telegram → Permisos → Micrófono → Permitir. Para canales de voz de Discord, habilita el permiso de superposición.

Anclar el chat del bot de Hermes en tu pantalla de inicio ayuda: un toque para empezar a hablar.

Patrones de habla que funcionan de forma fiable

La interacción por voz tiene una ergonomía diferente a la escritura. No puedes pegar registros fácilmente ni citar trazas de pila largas, por lo que la estructura importa:

Sé explícito. Di la acción, el alcance y el formato de salida en una sola oración.
Mantén un objetivo por mensaje. Divide los trabajos de múltiples pasos en seguimientos cortos.
Limita la salida. Pide acciones numeradas o un resumen de 3 puntos cuando la legibilidad en móvil sea importante.
Sé breve. Alrededor de 10 a 30 segundos por mensaje suele transcribirse mejor.
Usa turnos iterativos. Corrige y refina en el siguiente mensaje de voz en lugar de sobrecargar el primero.

Ejemplos de instrucciones que puedes hablar

“Revisa los registros de despliegue de la última hora y reporta solo errores críticos.”
“Crea un esquema de borrador para un artículo sobre la migración de OpenTelemetry con cinco secciones.”
“Resume este error en tres puntos y propón la causa raíz más probable.”
“Revisa la configuración y dime qué cambiar para menor latencia de transcripción.”

Casos de uso comunes con resultados concretos

Operaciones — “Revisa la salud de producción y lista los servicios fallidos.”
El resultado es una actualización de estado enfocada sobre la cual puedes actuar inmediatamente.
Escritura — “Convierte estos puntos preliminares en un párrafo introductorio publicable.”
El resultado es texto pulido a partir de notas habladas.
Clasificación de depuración — “Investiga este TypeError y sugiere la primera corrección a probar.”
El resultado es un siguiente paso concreto antes de abrir el IDE.
Investigación — “Encuentra tres fuentes recientes sobre el tema X y resume las diferencias.”
El resultado es un informe ejecutivo comprimido para trabajo profundo posterior.
Automatización — “Ejecuta la rutina del hogar y confirma los estados de los dispositivos.”
El resultado es una acción directa más confirmación.

Solución de problemas

Los mensajes de voz no se transcriben: Confirma stt.enabled: true en config.yaml. Verifica que las dependencias locales estén instaladas. Luego reinicia con hermes gateway restart.

TTS no responde: Confirma que tts.provider está configurado. Si usas un proveedor de pago, verifica la clave API en .env. Valida la configuración actual de voz desde los comandos de estado de la CLI de Hermes.

Mala calidad de transcripción: Aumenta stt.local.model de base a small o medium. Reduce el ruido y habla en segmentos más cortos. Si es necesario, cambia a STT en la nube para mayor precisión.

Las burbujas de voz aparecen como archivos en Telegram: Instala ffmpeg y reinicia la puerta de enlace. Este es el problema más común.

El stack gratuito

Para configuraciones conscientes del costo, esta base es sólida:

STT: Local faster-whisper sin clave API
TTS: Edge TTS con amplia cobertura de idiomas
Costo total: $0

Esta es una ventaja significativa sobre muchos asistentes cerrados donde la calidad de voz y la automatización se convierten rápidamente en características solo de pago.

Si los requisitos de calidad aumentan, mejora una capa a la vez. Generalmente, las actualizaciones de STT producen la mayor ganancia inmediata, luego la calidad de TTS puede mejorarse más tarde si es necesario.

Temas de FAQ en la práctica

Las cuatro preguntas más comunes de los usuarios son predecibles. También se superponen con las preocupaciones de diseño de memoria y perfil cubiertas en Sistema de Memoria del Agente Hermes y Patrones de configuración de producción de Hermes.

Si los comandos de voz obtienen el mismo acceso a herramientas que el texto.
Si un stack gratuito es viable para uso diario.
Por qué Telegram a veces muestra adjuntos en lugar de burbujas de voz.
Qué modelo de Whisper local debe usarse primero.

Esta guía aborda cada uno de estos directamente en las secciones de configuración, ajuste y solución de problemas para que puedas pasar de la primera ejecución a un uso diario estable rápidamente.

Resumen de inicio rápido

# 1. Instala los extras de voz
pip install "hermes-agent[all]"

# 2. Configura la puerta de enlace de Telegram
hermes gateway setup

# 3. Instala ffmpeg (requerido para burbujas de voz en Telegram)
sudo apt install ffmpeg

# 4. Envía un mensaje de voz desde tu teléfono
# Hermes transcribe, procesa y responde

A partir de ahí, itera según tu cuello de botella real. Si la latencia es el problema, ajusta el tamaño del modelo o el STT en la nube. Si la calidad de audio es el problema, ajusta el proveedor de TTS y el preset de voz. Comienza gratis, mide y luego mejora solo donde realmente mejore tu flujo de trabajo.