728x90
목표
- input : sound
output : 비슷한 sound 를 뽑아내는 것이 목표
ae : 동일한 sound 를 생성
vae : z 값을 임의로 조정하여 바뀐 sound 생성
- vq-vae : 스타일 변환 시도
2022-02-20 진행 상황
1번을 진행하여 생성한 결과물에 너무 많은 노이즈가 포함 (복원이 잘 안됨)
학습이 잘 되지 않았거나 spectrogram 을 복원하는 과정에서 생긴 문제라고 생각됨
시도해 볼 것
- audio source separation (다양한 악기를 가지고)
- audio reconstruction waveform 으로 복원하는 과정에서 Griffin-Lim 알고리즘이 아닌 resolution 관점에서 조금 더 나은 결과를 위해 WaveNet 을 활용한 audio reconstruction 시도
vae 의 evaluate 가 제대로 이루어지지 않음
인코더를 훈련 시킨 모델을 통해 재구성된 output 을 직접 확인하고 주관적인 평가로 잘 되었나 안되었나를 결정
주관적인 평가를 하는 것이 아닌 객관적인 평가를 할 수 있는 방법에 대해 아직 잘 알지 못함
추가적으로 공부할 것
- WaveNet
griffin-lim 알고리즘에 비해 속도 보다는 정확도 측면에서 조금 더 개선된 것이라고 파악함
mel spectogram 을 signal 로 복원하는 과정에서 발생하는 noise 를 줄일 수 있을 것 같음 - Audio seperation 결과
현재 찾아본 모델을 적용하였을 때는 drum, vocal, base, other 로 seperation 된 결과물이 나왔음 현재 목표하는 음악(EDM) 의 악기로 seperation 할 수 있는 모델을 찾아 적용해야할 것
다음 목표
- Wavnet 의 구현을 완료
- musegan / musicVAE 의 오류를 고쳐 결과물을 확인
- audio separation 을 적용하여 음원을 학습하는 방법으로 구현
- wav 를 midi 로 변환하는 방법을 알아보고 적용
프로젝트의 목적인 음원 변형 및 합성을 제대로 이해하기 위해 추가적으로 Unsupervised cross-domain image generation domain transfer 을 이번주에 공부하였고 domain adaptation 에 대해서도 추가적으로 공부할 예정