전체 글 23

1.15 연구일지

- music vae 논문 세미나 (다음주에 전체 코드와 함께 세밀하게 리뷰) vae 는 기본적으로 이미지에서 사용하던 task sequence 데이터 continuous 한 데이터에 적용하기엔 문제가 있었음 -> posterior collapse problem 이 문제를 해결하기 위해 encoder decoder 단에 lstm 의 사용 등의 아이디어를 생각하였지만 music vae 에서는 decoder 단에서 latent vector 의 범위를 제한 시켜 conductor 라는 하나의 계층을 추가하고 conductor 는 임베딩 벡터를 생성하게 됨 디코더는 자기 회귀적으로 분포를 생성 논문 이해 전에 vae 기본 구현과 cvae, b-vae 의 이해가 필요하겠다는 생각을 하였음 https://mpost..

연구일지 2023.01.16

[논문리뷰] - A Hierarchical Latent Vector Modelfor Learning Long-Term Structure in Music (Music Vae-1)

1. Introduction Generative 모델의 정의 : p(x) 분포에서 x 를 생성하기 위해 사용됨 두가지 notes 를 interpolate 함 Gan 이나 Pixel CNN 과 Wave Net 같이 다양한 generative 모델이 있음 p(z|x) p(z) , z latent vector 가 존재하는 데이터로 부터 생성될 수도 있고 latent space 로 부터 생성될 수도 있음 - 주어진 averaging latent codes - encoding : data point 기존 학습된 (brown hair 이라는 벡터에서) 새로운 vector 를 추가할 수 있음 ( blond hair) - realistic intermediate datapoint : 잠재 벡터 간 보간 및 디코딩 포인..

음악 생성 2023.01.15

day1

python algorithm class 문자열 조작 문자열 immutable 한 문자 배열 str-obj 이므로 str-method 만 사용 가능함 자주 쓰는 것들 isalpha isdigit isalnum find/rfind *split *join upper lower replace valid palindrome - 내가 생각한 풀이 upper 로 다 바꾸고 정규 표현식으로 영어만 가져오도록 한다 replace 를 통해 " " 공백을 다 없애도록 처리한다 len 을 통해 문자열 전체의 길이를 얻고 그 반만큼 range 를 통해 접근한다 arr[i] arr[i-1] 만큼을 비교한 str[::-1] 이 reverse 속도 제일 빠르다 - filter filter(함수명이 들어옴 ex. str.isalnu..

그외 2023.01.11

vocoder 비교 - diffwave melgan vocgan

현재 실험에서는 Text2Mel 과정에 FastSpeech2를 적용하고, 보코더로는 MelGAN, VocGAN 그리고 DiffWave를 적용하여 한국어 TTS 시스템을 구성해 KSS 데이터셋으로 학습 수렴 속도 및 음성합성 품질을 실험했다. 실험 결과를 바탕으로 확산 모델 기반 보코더의 성능을 GAN 기반 보코더와 비교하여 분석했다. DiffWave는 MelGAN, VocGAN과 비교하여 MOS 성능이 유사하고 모델의 크기가 크지만, 수렴 속도 및 RTF(Real Time Factor)가 더 뛰어났다 텍스트-음성 변환(Text-to-Speech, TTS) 시스템은 임의의 텍스트를 입력으로 받아들여 해당 텍스트를 발음하는 사람의 음성신호를 합성한다. 고전적인 TTS 시스템은 텍스트 전처리, 구문 분석, 발..

음성 합성 2023.01.01

음악 변형 및 합성 (vae)

목표 input : sound output : 비슷한 sound 를 뽑아내는 것이 목표 ae : 동일한 sound 를 생성 vae : z 값을 임의로 조정하여 바뀐 sound 생성 vq-vae : 스타일 변환 시도 2022-02-20 진행 상황 1번을 진행하여 생성한 결과물에 너무 많은 노이즈가 포함 (복원이 잘 안됨) 학습이 잘 되지 않았거나 spectrogram 을 복원하는 과정에서 생긴 문제라고 생각됨 시도해 볼 것 audio source separation (다양한 악기를 가지고) audio reconstruction waveform 으로 복원하는 과정에서 Griffin-Lim 알고리즘이 아닌 resolution 관점에서 조금 더 나은 결과를 위해 WaveNet 을 활용한 audio reconst..

음악 생성 2022.11.29

[논문리뷰] Cross-speaker Emotion Transfer

1. introduction - 최근 연구 분야 : 자연스러운 음성 합성 및 고품질 음성 생성 - 본 논문의 목적 : 자연스러움을 더욱 향상시키기 위한 운율, 감정과 같은 텍스트 및 더 많은 정보들을 다룰 수 있도록 하는 것 (prosody) - semi supervised learning 을 제안한 이유 지도 학습 : annotation 에 크게 의존하는 경향 (일반화 성능의 부족 -> 상업적 생산에 비실용적) 비지도 학습(encoder-decoder architecture) : 모델의 해석력, 제어 가능성의 부족 준지도 학습 : 학습된 representation의 해석력을 증가 - 제안 : semi-supervised cross-entropy loss 를 통해 style token 의 가중치를 one..

음성 합성 2022.11.24

[논문리뷰]-wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations

abstract 처음으로 음성 audio 에서 representation 을 학습한 뒤 전사된 음성에서 fine tuning 을 수행 wav2vec 2.0 은 hidden space 에서 audio input 을 마스킹하고 hidden layer 를 (양자화에 거쳐 정의된 대조 작업을 해결) Librispeech 의 모든 레이블링된 데이터를 사용한 시험은 clean/기타 test set 에서 1.8/3.3 WER 를 달성함 라벨링 데이터 양을 1시간으로 줄이면 wav2vec 2.0 은 라벨링된 데이터를 100배 적게 사용하면서 100시간의 subset 에서 이전 성능을 능가함 레이블이 지정된 데이터를 10분만에 사용하고 레이블이 지정되지 않은 데이터를 53k 시간동안 사전 교육해도 여전히 4.8/8.2 ..

음성 합성 2022.09.17