음성 합성 4

vocoder 비교 - diffwave melgan vocgan

현재 실험에서는 Text2Mel 과정에 FastSpeech2를 적용하고, 보코더로는 MelGAN, VocGAN 그리고 DiffWave를 적용하여 한국어 TTS 시스템을 구성해 KSS 데이터셋으로 학습 수렴 속도 및 음성합성 품질을 실험했다. 실험 결과를 바탕으로 확산 모델 기반 보코더의 성능을 GAN 기반 보코더와 비교하여 분석했다. DiffWave는 MelGAN, VocGAN과 비교하여 MOS 성능이 유사하고 모델의 크기가 크지만, 수렴 속도 및 RTF(Real Time Factor)가 더 뛰어났다 텍스트-음성 변환(Text-to-Speech, TTS) 시스템은 임의의 텍스트를 입력으로 받아들여 해당 텍스트를 발음하는 사람의 음성신호를 합성한다. 고전적인 TTS 시스템은 텍스트 전처리, 구문 분석, 발..

음성 합성 2023.01.01

[논문리뷰] Cross-speaker Emotion Transfer

1. introduction - 최근 연구 분야 : 자연스러운 음성 합성 및 고품질 음성 생성 - 본 논문의 목적 : 자연스러움을 더욱 향상시키기 위한 운율, 감정과 같은 텍스트 및 더 많은 정보들을 다룰 수 있도록 하는 것 (prosody) - semi supervised learning 을 제안한 이유 지도 학습 : annotation 에 크게 의존하는 경향 (일반화 성능의 부족 -> 상업적 생산에 비실용적) 비지도 학습(encoder-decoder architecture) : 모델의 해석력, 제어 가능성의 부족 준지도 학습 : 학습된 representation의 해석력을 증가 - 제안 : semi-supervised cross-entropy loss 를 통해 style token 의 가중치를 one..

음성 합성 2022.11.24

[논문리뷰]-wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations

abstract 처음으로 음성 audio 에서 representation 을 학습한 뒤 전사된 음성에서 fine tuning 을 수행 wav2vec 2.0 은 hidden space 에서 audio input 을 마스킹하고 hidden layer 를 (양자화에 거쳐 정의된 대조 작업을 해결) Librispeech 의 모든 레이블링된 데이터를 사용한 시험은 clean/기타 test set 에서 1.8/3.3 WER 를 달성함 라벨링 데이터 양을 1시간으로 줄이면 wav2vec 2.0 은 라벨링된 데이터를 100배 적게 사용하면서 100시간의 subset 에서 이전 성능을 능가함 레이블이 지정된 데이터를 10분만에 사용하고 레이블이 지정되지 않은 데이터를 53k 시간동안 사전 교육해도 여전히 4.8/8.2 ..

음성 합성 2022.09.17