TTS / 음성 안내 선행 묵음 적용 가이드
TTS 및 음성 안내 재생 시 발생할 수 있는 초기 음절 손실, 재생 시작부 클리핑(clipping), 디바이스 출력 경로 초기화 지연 문제를 방지하기 위해 재생 시작 전 선행 묵음(pre-roll silence)을 적용하는 방법을 설명합니다.
적용 범위
- TTS 기반 음성 안내
- 녹음 음원 기반 안내 멘트
- 내비게이션, 알림, 상태 안내 등 모든 음성 출력 경로
기본 정책
선행 묵음 적용
모든 음성 안내 재생 시작 전 선행 묵음 150 ms ~ 200 ms 적용을 권장합니다.
- 최소 권장값: 150 ms
- 기본 권장 구간: 150 ms ~ 200 ms
- 150 ms 미만은 디바이스 및 재생 환경에 따라 첫 음절 손실 가능성이 있음
- 200 ms 초과 적용은 체감 지연을 유발할 수 있으므로 필요 시에만 예외적으로 사용
적용 원칙
- 음성 안내는 묵음 없이 즉시 재생하지 않습니다.
- 선행 묵음은 일관된 기준으로 적용합니다.
- 서비스/플랫폼/디바이스별로 편차가 있더라도 기본 정책은 동일하게 유지합니다.
적용 위치
선행 묵음은 가능한 한 오디오 데이터 레벨에서 처리합니다. 권장 우선 순위는 다음과 같습니다.
- PCM/WAV 등 오디오 데이터 앞단에 사일런스 패딩(silence padding) 삽입
- TTS 결과물 생성 후 후처리로 묵음 추가
- 플레이어 재생 지연 방식
- 재생 지연만으로 처리하는 방식은 스케줄링 편차가 커서 권장하지 않습니다.
연속 재생 처리
- 단일 안내 시작 시에는 선행 묵음을 적용합니다.
- 하나의 자연스러운 발화 단위로 이어지는 연속 음성에는 불필요한 추가 묵음을 삽입하지 않습니다.
- 스트림 재생이 끊기거나 새 세션으로 시작되는 경우에는 다시 적용합니다.
구현 시 유의사항
선행 묵음 적용과 별도로 아래 조건을 함께 확인해야 합니다.
- 오디오 출력 경로가 사전에 초기화되어 있을 것
- 오디오 포커스 또는 오디오 세션 확보가 완료되어 있을 것
- 디코더/플레이어/출력 디바이스가 재생 가능한 상태일 것