[논문리뷰] - A Hierarchical Latent Vector Modelfor Learning Long-Term Structure in Music (Music Vae-2) 3. Model sequence 데이터에서 이전에 제안된 VAE 에 사용된 기본 구조를 따름 (ex. Bowman) 3.1 Bidirectional Encoder encoder q(z|x) 의 경우 2 계층 양방향 LSTM 네트워크를 사용함 input seq X={x1,x2, ... , xt} 를 처리하여 두번째 양방향 LSTM 계층에서 최종 상태 벡터 ht -> , 음악 생성 2023.01.15
[논문리뷰] - A Hierarchical Latent Vector Modelfor Learning Long-Term Structure in Music (Music Vae-1) 1. Introduction Generative 모델의 정의 : p(x) 분포에서 x 를 생성하기 위해 사용됨 두가지 notes 를 interpolate 함 Gan 이나 Pixel CNN 과 Wave Net 같이 다양한 generative 모델이 있음 p(z|x) p(z) , z latent vector 가 존재하는 데이터로 부터 생성될 수도 있고 latent space 로 부터 생성될 수도 있음 - 주어진 averaging latent codes - encoding : data point 기존 학습된 (brown hair 이라는 벡터에서) 새로운 vector 를 추가할 수 있음 ( blond hair) - realistic intermediate datapoint : 잠재 벡터 간 보간 및 디코딩 포인.. 음악 생성 2023.01.15
음악 변형 및 합성 (MusicVAE 활용) HOW TO USE MUSICVAE create notesequeces convert_dir_to_note_sequences --input_dir=midi_data --output_file=notesequences.tfrecord --recursive training music_vae_train --config=hier-multiperf_vel_1bar_med --run_dir=log1 --num_steps=70 --mode=train --examples_path=notesequences.tfrecord 생성된 checkpoint 들을 tar 로 묶은 뒤 사용 generate (sample) music_vae_generate \ --config=hier-multiperf_vel_1bar_med \ --c.. 음악 생성 2022.11.29
음악 변형 및 합성 (vae) 목표 input : sound output : 비슷한 sound 를 뽑아내는 것이 목표 ae : 동일한 sound 를 생성 vae : z 값을 임의로 조정하여 바뀐 sound 생성 vq-vae : 스타일 변환 시도 2022-02-20 진행 상황 1번을 진행하여 생성한 결과물에 너무 많은 노이즈가 포함 (복원이 잘 안됨) 학습이 잘 되지 않았거나 spectrogram 을 복원하는 과정에서 생긴 문제라고 생각됨 시도해 볼 것 audio source separation (다양한 악기를 가지고) audio reconstruction waveform 으로 복원하는 과정에서 Griffin-Lim 알고리즘이 아닌 resolution 관점에서 조금 더 나은 결과를 위해 WaveNet 을 활용한 audio reconst.. 음악 생성 2022.11.29
[논문 리뷰] Multi-instrument Music Synthesis with Spectrogram Diffusion ABSTRACT 이상적인 음악 신디사이저는 악기와 음표의 임의적인 조합을 위해 실시간으로 오디오를 생성하는 대화형 및 표현형이어야함 실시간 임의의 instrument 조합으로 MIDI 시퀀스에서 오디오를 생성할 수 있는 신경 합성기의 중간 지점에 초점을 맞춤 대용량 전사 데이터셋에 대한 교육이 가능하며 이후에 구성 및 계측을 노트 수준으로 제어가능 MIDI 는 인코더-디코더 트랜스포머로 프로그램을 스펙트로그램화 하며 그 다음 적대적 네트워크 GAN 스펙트로그램 인버터를 사용하여 스펙트로그램을 오디오로 스펙트로그램화 함 디코더를 자기 회귀 모델과 디노이징 확산 확률 모델 (DDPM) 으로 훈련하는 것을 비교함 DDPM 의 접근 방식이 질적으로나 오디오 재구성 및 프레세 거리 매트릭으로 측정될 때에 모두 우.. 음악 생성 2022.08.30