ABSTRACT 이상적인 음악 신디사이저는 악기와 음표의 임의적인 조합을 위해 실시간으로 오디오를 생성하는 대화형 및 표현형이어야함 실시간 임의의 instrument 조합으로 MIDI 시퀀스에서 오디오를 생성할 수 있는 신경 합성기의 중간 지점에 초점을 맞춤 대용량 전사 데이터셋에 대한 교육이 가능하며 이후에 구성 및 계측을 노트 수준으로 제어가능 MIDI 는 인코더-디코더 트랜스포머로 프로그램을 스펙트로그램화 하며 그 다음 적대적 네트워크 GAN 스펙트로그램 인버터를 사용하여 스펙트로그램을 오디오로 스펙트로그램화 함 디코더를 자기 회귀 모델과 디노이징 확산 확률 모델 (DDPM) 으로 훈련하는 것을 비교함 DDPM 의 접근 방식이 질적으로나 오디오 재구성 및 프레세 거리 매트릭으로 측정될 때에 모두 우..