현재 실험에서는 Text2Mel 과정에 FastSpeech2를 적용하고, 보코더로는 MelGAN, VocGAN 그리고 DiffWave를 적용하여 한국어 TTS 시스템을 구성해 KSS 데이터셋으로 학습 수렴 속도 및 음성합성 품질을 실험했다. 실험 결과를 바탕으로 확산 모델 기반 보코더의 성능을 GAN 기반 보코더와 비교하여 분석했다. DiffWave는 MelGAN, VocGAN과 비교하여 MOS 성능이 유사하고 모델의 크기가 크지만, 수렴 속도 및 RTF(Real Time Factor)가 더 뛰어났다 텍스트-음성 변환(Text-to-Speech, TTS) 시스템은 임의의 텍스트를 입력으로 받아들여 해당 텍스트를 발음하는 사람의 음성신호를 합성한다. 고전적인 TTS 시스템은 텍스트 전처리, 구문 분석, 발..