음악 변형 및 합성 (vae)

음악 생성

김다응 2022. 11. 29. 22:11

728x90

ae : 동일한 sound 를 생성
vae : z 값을 임의로 조정하여 바뀐 sound 생성

1번을 진행하여 생성한 결과물에 너무 많은 노이즈가 포함 (복원이 잘 안됨)
학습이 잘 되지 않았거나 spectrogram 을 복원하는 과정에서 생긴 문제라고 생각됨

시도해 볼 것

audio source separation (다양한 악기를 가지고)
audio reconstruction waveform 으로 복원하는 과정에서 Griffin-Lim 알고리즘이 아닌 resolution 관점에서 조금 더 나은 결과를 위해 WaveNet 을 활용한 audio reconstruction 시도

vae 의 evaluate 가 제대로 이루어지지 않음
인코더를 훈련 시킨 모델을 통해 재구성된 output 을 직접 확인하고 주관적인 평가로 잘 되었나 안되었나를 결정
주관적인 평가를 하는 것이 아닌 객관적인 평가를 할 수 있는 방법에 대해 아직 잘 알지 못함

WaveNet
griffin-lim 알고리즘에 비해 속도 보다는 정확도 측면에서 조금 더 개선된 것이라고 파악함
mel spectogram 을 signal 로 복원하는 과정에서 발생하는 noise 를 줄일 수 있을 것 같음
Audio seperation 결과
현재 찾아본 모델을 적용하였을 때는 drum, vocal, base, other 로 seperation 된 결과물이 나왔음 현재 목표하는 음악(EDM) 의 악기로 seperation 할 수 있는 모델을 찾아 적용해야할 것

프로젝트의 목적인 음원 변형 및 합성을 제대로 이해하기 위해 추가적으로 Unsupervised cross-domain image generation domain transfer 을 이번주에 공부하였고 domain adaptation 에 대해서도 추가적으로 공부할 예정

[논문리뷰] - A Hierarchical Latent Vector Modelfor Learning Long-Term Structure in Music (Music Vae-2) (0)	2023.01.15
[논문리뷰] - A Hierarchical Latent Vector Modelfor Learning Long-Term Structure in Music (Music Vae-1) (1)	2023.01.15
음악 변형 및 합성 (MusicVAE 활용) (3)	2022.11.29
[논문 리뷰] Multi-instrument Music Synthesis with Spectrogram Diffusion (0)	2022.08.30

참치 사주는 개발자

루루야 참치 사줄께

탐욕적알고리즘, C언어, prim, sort, 자료구조 #c언어 #그래프, greedyAlgorithm, 자료구조, 음성합성 #코드리뷰 #Tacotron,

참치 사주는 개발자