음악 생성

[논문 리뷰] Multi-instrument Music Synthesis with Spectrogram Diffusion

김다응 2022. 8. 30. 14:17
728x90

ABSTRACT

이상적인 음악 신디사이저는 악기와 음표의 임의적인 조합을 위해 실시간으로 오디오를 생성하는 대화형 및 표현형이어야함

실시간 임의의 instrument 조합으로 MIDI 시퀀스에서 오디오를 생성할 수 있는 신경 합성기의 중간 지점에 초점을 맞춤

대용량 전사 데이터셋에 대한 교육이 가능하며 이후에 구성 및 계측을 노트 수준으로 제어가능

MIDI 는 인코더-디코더 트랜스포머로 프로그램을 스펙트로그램화 하며 그 다음 적대적 네트워크 GAN 스펙트로그램 인버터를 사용하여 스펙트로그램을 오디오로 스펙트로그램화 함

디코더를 자기 회귀 모델과 디노이징 확산 확률 모델 (DDPM) 으로 훈련하는 것을 비교함

DDPM 의 접근 방식이 질적으로나 오디오 재구성 및 프레세 거리 매트릭으로 측정될 때에 모두 우수하다는 것을 발견함

악기와 음의 임의적인 조합을 위한 상호 작용적이고 표현적인 신경 합성이 가능해짐

1. INTRODUCTION

음악의 신경오디오 합성은 다양한 악기, 연주 스타일 및 음향 환경 때문에 독특하며 어려운 문제임

DDSP 와 같은 대화형 모델은 실시간 합성 및 세분화된 제어 기능을 제공하지만 도메인별 train imformation 이 포함된 특정 계측기 유형임

Jukebox 와 같은 모델은 훨씬 일반적이지만 실시간보다 몇 배 느리고 제한적인 글로벌한 제어를 제공함

NLP 와 Computer Vision 에서 최근 극적인 발전을 하고 있는 인코더-디코더 트랜스포머 아키텍처의 확장 MT3 에서는 이러한 접근 방식이 자동 음악 전사에 적용될 수 있음을 입증하여 스팩트로그램 프로그램을 임의의 악기 조합에서 가변 길이의 음표 시퀀스로 변환 가능하도록 함

다양한 데이터셋에서 단일 모델을 교육할 수 있음

  • 다중 instrument 전사에 사용되는 일반적인 인코더-디코더 트랜스포머 접근 방식도 다중 기기 오디오 합성에 적용될 수 있음
  • 실시간 합성은 MIDI-TO-SPECTROGRAM Transformer 모델을 GAN spectrogram Inverter 쌍으로 구성함 이를 통해 대화형 노트 수준 제어를 가능하게 함
  • 세그먼트(약 5초)에 대한 추가 auto regressive 조절을 통해 edge artifacts 가 없는 임이의 길이 합성을 위해 DDPM 디코딩을 조정
  • 연속 스펙트럼 프로그램에 대한 frame 별 auto regressive decoder 에 비해 세그먼트별 diffusion decoder 의 장점을 보여주는 Quantitative metrics 와 qualitative examples 의 예임

spectrogram diffusion model 을 위한 교육

note event 를 입력으로 받고 spectrogram 을 출력하는 encoder-decoder transformer

디코더 스택을 denoising Diffusion Probabilistic Model 로 훈련함

모델은 가우스 노이즈를 스펙트로그램에 반복적으로 정제하는 방법을 배움

1. 최대 5초간의 스펙트로그램 segment 를 생성하고 이러한 segment 간의 원활한 전환을 보장하기 위해

2. 이전 생성된 세그먼트를 두 번째 인코더 스택에서 인코딩합니다.

3. 추론 시 생성된 스펙트로그램은 MelGAN 과 유사한 모델을 사용하여 파형으로 반전됨

4. P.E 는 위치 인코딩을 의미함

2. RELATED WORK

신경 오디오 합성은 WaveNet 및 SampleRNN 과 같은 원시 파형의 auto-regressive model 로 처음 실현 가능하다는 것이 입증 됨

잠재 변수 또는 MIDI 노트의 조건을 처리하도록 조정되었지만 파형의 모든 샘플에 대해 forward pass 를 실행해야 하기 때문에 생성 속도가 느림

실wav auto-regression 속도 제한 극복을 위해 단일 forward pass 로 직접 오디오를 생성하는 것에 초점을 맞추고 있음

아키텍처는 일반적으로 GAN, 조작가능한 differen-tiable DSP (oscillators, filters) 를 사용함

 

또한 다단계 접근법을 채택하여 낮은 샘플링 속도로 생성된 오디오 represention 을 얻은 다음 오디오로 디코딩 하기 전에 예측 모델로 표현들을 모델링 하여 파형의 자기 회귀 시간적 컨텍스트의 한계를 극복함

ex) juke box, soundstream ( a Transformer 를 사용하여 기본 파형 자동 인코더의 이산 벡터 양자화 코드를 auto-regressive modeling 함)

Tacotron 아키텍처는 간단한 스펙트로그램이 다단계 생성에 효과적인 오디오 표현이 될 수 있음을 보여줌

연속 값 스펙트로그램을 auto regressive 하게 생성한 다음 신경 vocoder 로 파형을 합성함

이러한 접근 방식의 성공으로 linear wav auto regression, GAN, normalize 흐름 및 denoising deffusion probability model 을 포함한 스펙트로그램 반전 모델에 대한 많은 연구가 이루어짐

 

3. ARCHITECTURE

디코더 스텍은 denoising defusion probability model 로 훈련됨

모델은 입력으로 가우스 노이즈를 받고 일련의 노트 이벤트와 이전에 렌더링 된 세그먼트의 스펙트로그램에 대해 대상을 향해 반복적으로 노이즈를 정제하도록 훈련됨

 

 

2단계 시스템을 사용하여 오디오 합성 문제에 접근함

1. 임의의 수의 악기를 나타내는 MIDI 와 같은 note event seq 가 주어진 spectrogram 을 생성하는 모델로 구성됨

다음 별도의 모델을 사용하여 spectrum program 을 audio 로 변환

우리 모델의 첫번째 단계는 encoder-decoder Transformer architecture 이다.

인코드는 일련의 note event 를 수신하고 선택적으로 두번째 인코더가 spectrogram 에서 audio 샘플을 얻음

첫번째 단계는 그림 1과 같이 인코더 디코더 트랜스포머 아키텍처 T5 를 사용함

또한 MT3 와 동일한 노트 이벤트 어휘 및 노트 시퀀스 인코딩 절차를 사용함

노트 시퀀스를 세그먼트로 분할함 (시퀀스 길이에 따른 self attention 2차 스케일링으로 인해 전체 곡에 대한 훈련이 메모리 및 컴퓨팅 측면에서 금지적이라는 것)

노트 이벤트에 대한 입력 위치가 2048 개이고 스펙트로그램 프레임에 대한 출력위치가 256개인 모델을 교육함

각 스펙트로그램 프레임은 20ms 오디오를 나타내므로 세그먼트는 5.12 초가 됨

 

오디오 세그먼트를 독립적으로 렌더링하는것은 완전한 하나의 음악을 생성하고 세그먼트간의 원활한 전환을 보장할 수가 없음

이전에 렌더링된 세그먼트 스펙트로그램을 모델에 제공하여 이 문제를 해결

이것은 모델이 세그먼트 수준에서 auto regression 한다는 것을 알 수 있음

컨텍스트 세그먼트에서는 256개의 입력 위치가 있는 self encoder stack 이 있음

두 인코더 stack 의 출력은 decoder 계층에서 cross attention 을 위한 입력으로 함께 연결됨

 

원래의 트랜스포머 논문에서와 같이 사인파 인코딩을 사용 각 네트워크의 위치 인코딩과 관련된것은 의미가 다르기 때문에 데코레이션 하면 더 나은 성능을 볼 수 있음

각 인코더 디코더 스택에 사용되는 사인노이드에 고유한 랜덤 채널 순열과 위상 오프셋을 적용하여 인코딩을 데코레이션함

 

 

3.1 Autoregressive Decoder

초기 접근 방식으로 Tacotron 에서 영감을 얻어 디코더를 자동으로 훈련시킴

연속 스펙트로그램의 agressive model 임

self attnetion 계층의 전체에 표준 인과 마스킹이 적용됨

입력과 출력은 연속 스펙트로그램 프레임이며 모델은 해당 프레임에서 MSE 손실로 훈련됨

수학적으로 등방성 및 고정 분산을 가진 가우스 출력 분포를 사용하여 연속 자기 회귀 모델을 훈련하는 것과 같음

여러 가우스인의 혼합물을 사용하여 훈련 모델을 시도하였지만 샘플링이 불안전한 문제가 존재함

 

표본 추출을 위해 고정 분산 (로그 크기로 0.2)을 사용하는데

이러한 dithering은 지나치게 부드러운 출력으로 강한 artifect 를 줄이게 됨

일부 프레임에서 불쾌한 artifect 를 포함하는 spectrogram 출력을 생성

증분 양방향 미세 조정 및 주파수 빈 사이의 모델 의존성을 가능하게 하는 접근방식이 문제 해결이 도움이 된다고 가정함

 

3.2 Diffusion Decoder

DALL-E2 및 Imagen 과 

3.3 Spectrograms to Audio

 

4. DATASETS

 

5. EXPERIMENTS

 

5.1 Metrics

 

5.2 Results

 

6. CONCLUSION

 

7. ACKNOWLEDGEMENTS