폰으로 허메스 음성 제어

전화기에서 헤르메스와 대화하세요

Page content

이미 스마트폰으로 텍스트를 통해 헤르메스 에이전트(Hermes Agent)와 대화를 나누고 계실텐데요. 이제 직접 말로 소통하고 음성으로 답변을 받아보시는 게 좋습니다. 특히 헤르메스를 영구적인 자체 호스팅 어시스턴트로 사용하고 계신다면 이는 가장 올바른 선택입니다. 작은 화면에서 긴 프롬프트를 입력하는 것은 느리고 실수가 발생하기 쉽기 때문입니다.

보행 중, 통근 중, 또는 책상에서 떨어진 곳에서 행정 업무를 처리할 때 등 가장 중요한 순간에 헤르메스의 음성 모드는 실용성을 높여줍니다.

hermes voice control from  mobile on telegram

좋은 소식은 음성 모드를 전혀 유료 API 없이 실행할 수 있다는 점입니다. 로컬 faster-whisper 모델이 전사(Transcription)를 처리하고, Edge TTS가 무료로 음성 출력을 담당합니다. 이 가이드는 설정, 제공업체 선택, 플랫폼 차이, 실용적인 명령 패턴, 그리고 초보 사용자가 흔히 겪는 장애 요인을 다룹니다.

파이프라인 작동 원리

마법 같은 것은 없습니다. 세 단계로 구성됩니다:

  1. 전사(STT) — 음성 메시지가 텍스트로 변환됩니다.
  2. 추론(Reasoning) — 헤르메스는 해당 텍스트를 마치 타이핑한 요청처럼 정확하게 처리합니다.
  3. 합성(TTS) — 응답 텍스트가 다시 오디오로 변환됩니다.

소비자용 어시스턴트와의 중요한 차이점은 실행 깊이(execution depth)입니다. 헤르메스는 단순한 퀴즈에 답변하는 것이 아닙니다. 도구를 호출하고, 파일을 검사하며, 코드 경로를 실행하고, 메모리에서 다단계 작업을 계속 진행할 수 있습니다. 실제로는 음성을 통해 사고 상황 분류, 초안 생성, 표적 디버깅과 같은 실제 워크플로우를 트리거할 수 있습니다. 더 넓은 아키텍처 컨텍스트를 원하신다면, AI 시스템 기둥에서 이 음성 레이어가 로컬 에이전트 인프라에 어떻게 통합되는지 설명하고 있습니다.

음성 컨트롤이 뛰어난 분야

키보드 정밀도가 필요하지 않지만 다음과 같은 상황에 음성 모드를 사용하세요:

  • 운영 점검 — 노트북에서 멀리 떨어진 상태에서 수행합니다.
  • 아이디어 포착 — 초안, 개요, 거친 명세서를 작성할 때 사용합니다.
  • 빠른 분류 — 더 깊이 있는 데스크톱 후속 조치 전에 알림과 오류를 빠르게 분류합니다.
  • 손이 바쁜 워크플로우 — 말하는 것이 유일한 현실적인 입력 채널인 경우입니다.

음성 입력: STT 제공업체 선택

제공업체 비용 API 키 비고
로컬 faster-whisper 무료 없음 온디바이스, ~150 MB 모델, 90개 이상 언어
Groq Whisper 무료 등급 GROQ_API_KEY 빠른 클라우드 추론
OpenAI Whisper 유료 VOICE_TOOLS_OPENAI_KEY 최고 정확도
Mistral Voxtral 유료 MISTRAL_API_KEY 대체 클라우드 옵션

~/.hermes/config.yaml의 설정:

stt:
  enabled: true
  provider: local
  local:
    model: base  # tiny, base, small, medium, large-v3

local로 시작하세요. 즉시 작동하며, 다국어 연설을 처리하고, 재발생 비용을 추가하지 않습니다. 로컬 설정이 지연 시간 또는 정확도 요구사항을 충족하지 못하는 경우에만 Groq 또는 OpenAI로 전환하세요. 제공업체 테스트 중 명령 수준 설정 및 진단을 위해 Hermes CLI 치트시트를 가까이 두세요.

Faster Whisper 모델 선택

단순한 진행 단계를 따르세요:

  • tiny — 속도가 가장 중요한 저전력 장치에 사용합니다.
  • base — 노트북 및 소형 서버의 기본 균형점으로 사용합니다.
  • small — 악센트, 소음이 많은 환경, 도메인 용어로 인해 정확도가 낮아질 때 사용합니다.
  • medium 또는 large-v3 — 품질이 중요하고 하드웨어 예산이 높을 때 사용합니다.

전사 결과가 일관되게 잘못된 경우, 프롬프트 복잡도를 높이기 전에 먼저 모델 크기를 늘리세요.

음성 출력: TTS 제공업체

제공업체 품질 비용 가장 적합한 용도
Edge TTS (기본값) 좋음 무료 빠른 시작, 322개 음성, 74개 언어
ElevenLabs 우수 유료 프리미엄 품질, 음성 클로닝
OpenAI TTS 좋음 유료 자연스러운 음성, 6가지 옵션
MiniMax TTS 우수 유료 세분화된 속도/볼륨/음높이 제어
NeuTTS 좋음 무료 (로컬) 완전 오프라인, 음성 클로닝

설정:

tts:
  provider: "edge"
  speed: 1.0

  edge:
    voice: "en-US-AriaNeural"

중요한 세부 사항 중 하나는 출력 형식입니다. Telegram 음성 버블은 오디오가 OGG로 Opus로 인코딩되었을 때 가장 안정적입니다. 헤르메스는 일반적인 설정에서 이러한 변환을 위해 ffmpeg에 의존합니다. ffmpeg가 누락된 경우, 응답은 인라인 음성 버블 대신 파일 첨부물로 표시되는 경우가 많습니다.

ffmpeg를 초기에 설치하세요:

sudo apt install ffmpeg  # Ubuntu/Debian
brew install ffmpeg       # macOS

플랫폼 워크플로우 및 실용적인 차이점

Telegram

Telegram은 시작하기에 가장 쉬운 곳입니다. 모바일에서 음성 메시지가 일류 지원되며, 상호 작용 루프는 간단합니다. 잡고, 말하고, 놓고, 받습니다.

설정:

# 1. @BotFather를 통해 봇 생성, 토큰 획득
# 2. ~/.hermes/.env에 추가:
TELEGRAM_BOT_TOKEN=***
TELEGRAM_ALLOWED_USERS=your_user_id

# 3. 게이트웨이 시작
hermes gateway start

그런 다음 헤르메스 채팅을 열고, 마이크를 탭하고, 말하세요. STT와 TTS가 활성화되어 있다면, 헤르메스는 요청을 전사하고, 실행하며, 음성 응답을 보냅니다.

Discord

Discord는 두 가지 유용한 모드를 지원합니다. DM 또는 채널의 음성 메시지는 Telegram 동작과 유사합니다.

더 고급 옵션은 라이브 음성 채널입니다. 이 흐름에서 헤르메스는 지속적으로 참여하여 음성을 전사하고 명시적인 메시지 버블 없이 응답할 수 있습니다.

요구 사항:

  • 봇 설정에서 메시지 콘텐츠 의도(Message Content Intent) 활성화
  • 서버 멤버 의도(Server Members Intent) 활성화
  • 봇 권한: 연결(Connect) 및 말하기(Speak)

Signal

Signal은 signal-cli 데몬을 통해 작동합니다. 음성 메시지는 여전히 동일한 헤르메스 STT 및 TTS 파이프라인을 사용합니다.

유용한 패턴은 signal-cli를 연결된 장치로 실행하고 Signal Note to Self를 사용하는 것입니다. 음성 메모를 남기고 같은 스레드에서 헤르메스 출력을 받을 수 있습니다.

WhatsApp

WhatsApp도 동일한 게이트웨이 모델을 따릅니다. 커넥터가 구성된 후 오디오 메시지가 자동으로 전사됩니다.

모바일 앱 권한

iOS 및 Android 모두 사용하는 메시징 앱에 대한 마이크 액세스가 필요합니다.

iOS: 설정 → Telegram (또는 Discord) → 권한 → 마이크 → 허용. 즉각적인 응답을 위해 배경 앱 새로 고침을 활성화합니다.

Android: 설정 → 앱 → Telegram → 권한 → 마이크 → 허용. Discord 음성 채널의 경우 오버레이 권한을 활성화합니다.

헤르메스 봇 채팅을 홈 화면에 고정하면 도움이 됩니다 — 한 번 탭으로 음성 입력을 시작할 수 있습니다.

신뢰성 있게 작동하는 말하기 패턴

음성 상호 작용은 타이핑과 다른 인간 공학적 특성을 가집니다. 로그를 쉽게 붙여넣거나 긴 스택 트레이스를 인용할 수 없으므로 구조가 중요합니다:

  • 명확하게 하세요. 한 문장에서 작업, 범위, 출력 형식을 말하세요.
  • 메시지당 하나의 목표 유지. 다단계 작업을 짧은 후속 조치로 분할하세요.
  • 출력 제한. 모바일 가독성이 중요할 때 번호가 매겨진 작업이나 3점 요약을 요청하세요.
  • 짧게 하세요. 메시지당 약 10~30초가 보통 더 잘 전사됩니다.
  • 반복적 턴 사용. 첫 번째 메시지에 과부하를 걸지 말고 다음 음성 메시지에서 수정하고 다듬으세요.

말할 수 있는 예시 프롬프트

  • “지난 1시간 동안의 배포 로그를 확인하고 중요 오류만 보고하세요.”
  • “OpenTelemetry 마이그레이션에 대한 게시물을 위한 5개 섹션의 초안 개요를 작성하세요.”
  • “이 버그를 3개의 불릿 포인트로 요약하고 가장 가능성 있는 근본 원인을 제안하세요.”
  • “구성을 검토하고 전사 지연 시간을 낮추기 위해 변경해야 할 사항을 알려주세요.”

구체적인 결과와 함께 일반적인 사용 사례

  • 운영 — “프로덕션 상태를 확인하고 실패한 서비스를 나열하세요.”
    결과: 즉시 조치할 수 있는 초점 있는 상태 업데이트.
  • 라이팅 — “이 거친 포인트들을 발행 가능한 소개 단락으로 변환하세요.”
    결과: 말한 메모에서 다듬어진 텍스트.
  • 디버깅 분류 — “이 TypeError를 조사하고 테스트할 첫 번째 수정 방법을 제안하세요.”
    결과: IDE를 열기 전의 구체적인 다음 단계.
  • 연구 — “주제 X에 대한 세 가지 최근 출처를 찾고 차이점을 요약하세요.”
    결과: 향후 심층 작업을 위한 압축된 브리핑.
  • 자동화 — “홈 루틴을 실행하고 장치 상태를 확인하세요.”
    결과: 직접적인 작업 및 확인.

문제 해결

음성 메시지가 전사되지 않음: config.yaml에서 stt.enabled: true인지 확인하세요. 로컬 종속성이 설치되었는지 확인한 후 hermes gateway restart로 재시작하세요.

TTS 응답 없음: tts.provider가 설정되었는지 확인하세요. 유료 제공업체를 사용하는 경우 .env의 API 키를 확인하세요. 헤르메스 CLI 상태 명령어로 현재 음성 설정을 유효성 검사하세요.

전사 품질 저하: stt.local.modelbase에서 small 또는 medium로 늘리세요. 소음을 줄이고 더 짧은 세그먼트로 말하세요. 필요하다면 더 나은 정확도를 위해 클라우드 STT로 전환하세요.

Telegram에서 음성 버블이 파일로 표시됨: ffmpeg를 설치하고 게이트웨이를 재시작하세요. 이는 가장 일반적인 문제입니다.

무료 스택

비용 의식적인 설정을 위해 이 기준이 강력합니다:

  • STT: API 키가 없는 로컬 faster-whisper
  • TTS: 광범위한 언어 지원의 Edge TTS
  • 총 비용: $0

이는 음성 품질과 자동화가 빠르게 유료 전용 기능이 되는 많은 폐쇄형 어시스턴트에 비해 의미 있는 장점이 있습니다.

품질 요구사항이 증가하면 한 레이어씩 업그레이드하세요. 일반적으로 STT 업그레이드가 가장 큰 즉각적인 이점을 제공하며, 필요시 나중에 TTS 품질을 개선할 수 있습니다.

실제 FAQ 주제

네 가지 가장 일반적인 사용자 질문은 예측 가능합니다. 또한 헤르메스 에이전트 메모리 시스템헤르메스 프로덕션 설정 패턴에서 다루는 메모리 및 프로필 설계 관심사와 겹칩니다.

  • 음성 명령이 텍스트와 동일한 도구 액세스를 받는지 여부.
  • 무료 스택이 일상적인 사용에 적합한지 여부.
  • Telegram이 때때로 음성 버블 대신 첨부물을 표시하는 이유.
  • 먼저 사용해야 할 로컬 Whisper 모델은 무엇인지.

이 가이드는 설정, 튜닝, 문제 해결 섹션에서 각각을 직접적으로 다루므로 첫 실행에서 안정적인 일상 사용으로 빠르게 이동할 수 있습니다.

빠른 시작 요약

# 1. 음성 추가 기능 설치
pip install "hermes-agent[all]"

# 2. Telegram 게이트웨이 설정
hermes gateway setup

# 3. ffmpeg 설치 (Telegram 음성 버블에 필요)
sudo apt install ffmpeg

# 4. 스마트폰에서 음성 메시지 보내기
# 헤르메스가 전사, 처리 및 응답

그 후, 실제 병목 현상에 따라 반복하세요. 지연 시간이 문제라면 모델 크기를 조정하거나 클라우드 STT를 사용하세요. 오디오 품질이 문제라면 TTS 제공업체 및 음성 프리셋을 조정하세요. 무료로 시작하고, 측정하며, 워크플로우를 실제로 개선하는 곳에만 업그레이드하세요.

구독하기

시스템, 인프라, AI 엔지니어링에 관한 새 글을 받아보세요.