음악 생성

음악 변형 및 합성 (vae)

김다응 2022. 11. 29. 22:11
728x90

 

목표

  1. input : sound
    output : 비슷한 sound 를 뽑아내는 것이 목표

ae : 동일한 sound 를 생성
vae : z 값을 임의로 조정하여 바뀐 sound 생성

  1. vq-vae : 스타일 변환 시도

2022-02-20 진행 상황

1번을 진행하여 생성한 결과물에 너무 많은 노이즈가 포함 (복원이 잘 안됨)
학습이 잘 되지 않았거나 spectrogram 을 복원하는 과정에서 생긴 문제라고 생각됨

시도해 볼 것

  • audio source separation (다양한 악기를 가지고)
  • audio reconstruction waveform 으로 복원하는 과정에서 Griffin-Lim 알고리즘이 아닌 resolution 관점에서 조금 더 나은 결과를 위해 WaveNet 을 활용한 audio reconstruction 시도

vae 의 evaluate 가 제대로 이루어지지 않음
인코더를 훈련 시킨 모델을 통해 재구성된 output 을 직접 확인하고 주관적인 평가로 잘 되었나 안되었나를 결정
주관적인 평가를 하는 것이 아닌 객관적인 평가를 할 수 있는 방법에 대해 아직 잘 알지 못함

추가적으로 공부할 것

  1. WaveNet
    griffin-lim 알고리즘에 비해 속도 보다는 정확도 측면에서 조금 더 개선된 것이라고 파악함
    mel spectogram 을 signal 로 복원하는 과정에서 발생하는 noise 를 줄일 수 있을 것 같음
  2. Audio seperation 결과
    현재 찾아본 모델을 적용하였을 때는 drum, vocal, base, other 로 seperation 된 결과물이 나왔음 현재 목표하는 음악(EDM) 의 악기로 seperation 할 수 있는 모델을 찾아 적용해야할 것

다음 목표

  1. Wavnet 의 구현을 완료
  2. musegan / musicVAE 의 오류를 고쳐 결과물을 확인
  3. audio separation 을 적용하여 음원을 학습하는 방법으로 구현
  4. wav 를 midi 로 변환하는 방법을 알아보고 적용

프로젝트의 목적인 음원 변형 및 합성을 제대로 이해하기 위해 추가적으로 Unsupervised cross-domain image generation domain transfer 을 이번주에 공부하였고 domain adaptation 에 대해서도 추가적으로 공부할 예정