딥러닝 음성 합성(Deep Learning Speech Synthesis)은 신경망을 이용해 텍스트로부터 자연스러운 인간 음성을 생성하는 기술입니다. Tacotron, WaveNet, VITS 같은 모델이 대표적이며, 프로소디(prosody)·억양·감정까지 사실적으로 재현합니다. 가상 비서, 오디오북, 접근성 보조, 게임 캐릭터 더빙, 다국어 콘텐츠 로컬라이제이션에 활용되며, 성우 음성 복제 등 윤리 이슈도 함께 대두됩니다.
딥러닝 음성 합성(Deep Learning Speech Synthesis)은 신경망을 이용해 텍스트로부터 자연스러운 인간 음성을 생성하는 기술입니다. Tacotron, WaveNet, VITS 같은 모델이 대표적이며, 프로소디(prosody)·억양·감정까지 사실적으로 재현합니다. 가상 비서, 오디오북, 접근성 보조, 게임 캐릭터 더빙, 다국어 콘텐츠 로컬라이제이션에 활용되며, 성우 음성 복제 등 윤리 이슈도 함께 대두됩니다.