MGE-LDM: Joint Latent Diffusion for Simultaneous Music Generation and Source Extraction

1citations

arXiv:2505.23305 Project

citations

#2497

in NEURIPS 2025

of 5858 papers

Top Authors

Data Points

Top Authors

Yunkee Chae Kyogu Lee

Topics

latent diffusion models music generation source separation source imputation conditional inpainting joint distribution learning multi-track datasets query-driven extraction

Abstract

We present MGE-LDM, a unified latent diffusion framework for simultaneous music generation, source imputation, and query-driven source separation. Unlike prior approaches constrained to fixed instrument classes, MGE-LDM learns a joint distribution over full mixtures, submixtures, and individual stems within a single compact latent diffusion model. At inference, MGE-LDM enables (1) complete mixture generation, (2) partial generation (i.e., source imputation), and (3) text-conditioned extraction of arbitrary sources. By formulating both separation and imputation as conditional inpainting tasks in the latent space, our approach supports flexible, class-agnostic manipulation of arbitrary instrument sources. Notably, MGE-LDM can be trained jointly across heterogeneous multi-track datasets (e.g., Slakh2100, MUSDB18, MoisesDB) without relying on predefined instrument categories. Audio samples are available at our project page: https://yoongi43.github.io/MGELDM_Samples/.

Citation History

Jan 26, 2026

Jan 27, 2026

Feb 3, 2026

Feb 13, 2026

1+1

Feb 13, 2026