'음성 합성' 카테고리의 글 목록

음성 합성 4

현재 실험에서는 Text2Mel 과정에 FastSpeech2를 적용하고, 보코더로는 MelGAN, VocGAN 그리고 DiffWave를 적용하여 한국어 TTS 시스템을 구성해 KSS 데이터셋으로 학습 수렴 속도 및 음성합성 품질을 실험했다. 실험 결과를 바탕으로 확산 모델 기반 보코더의 성능을 GAN 기반 보코더와 비교하여 분석했다. DiffWave는 MelGAN, VocGAN과 비교하여 MOS 성능이 유사하고 모델의 크기가 크지만, 수렴 속도 및 RTF(Real Time Factor)가 더 뛰어났다 텍스트-음성 변환(Text-to-Speech, TTS) 시스템은 임의의 텍스트를 입력으로 받아들여 해당 텍스트를 발음하는 사람의 음성신호를 합성한다. 고전적인 TTS 시스템은 텍스트 전처리, 구문 분석, 발..

음성 합성 2023.01.01

[논문리뷰] Cross-speaker Emotion Transfer

1. introduction - 최근 연구 분야 : 자연스러운 음성 합성 및 고품질 음성 생성 - 본 논문의 목적 : 자연스러움을 더욱 향상시키기 위한 운율, 감정과 같은 텍스트 및 더 많은 정보들을 다룰 수 있도록 하는 것 (prosody) - semi supervised learning 을 제안한 이유 지도 학습 : annotation 에 크게 의존하는 경향 (일반화 성능의 부족 -> 상업적 생산에 비실용적) 비지도 학습(encoder-decoder architecture) : 모델의 해석력, 제어 가능성의 부족 준지도 학습 : 학습된 representation의 해석력을 증가 - 제안 : semi-supervised cross-entropy loss 를 통해 style token 의 가중치를 one..

음성 합성 2022.11.24

Tacotron 코드 리뷰

음성 합성 2022.10.12

[논문리뷰]-wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations

abstract 처음으로 음성 audio 에서 representation 을 학습한 뒤 전사된 음성에서 fine tuning 을 수행 wav2vec 2.0 은 hidden space 에서 audio input 을 마스킹하고 hidden layer 를 (양자화에 거쳐 정의된 대조 작업을 해결) Librispeech 의 모든 레이블링된 데이터를 사용한 시험은 clean/기타 test set 에서 1.8/3.3 WER 를 달성함 라벨링 데이터 양을 1시간으로 줄이면 wav2vec 2.0 은 라벨링된 데이터를 100배 적게 사용하면서 100시간의 subset 에서 이전 성능을 능가함 레이블이 지정된 데이터를 10분만에 사용하고 레이블이 지정되지 않은 데이터를 53k 시간동안 사전 교육해도 여전히 4.8/8.2 ..

음성 합성 2022.09.17

참치 사주는 개발자

루루야 참치 사줄께

greedyAlgorithm, 자료구조, sort, prim, C언어, 음성합성 #코드리뷰 #Tacotron, 탐욕적알고리즘, 자료구조 #c언어 #그래프,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

참치 사주는 개발자

음성 합성 4

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역