ResearchAlpha Leak

Conferences Topics Top Authors Rankings Browse All

Home/Authors/Shentong Mo

Shentong Mo

Topic trends: 32,543 papers · similarity ≥ 0.4 · year ≥ 2024 · Data sourced from Semantic Scholar

34,598 papers | Abstracts: 31,650 (91.5%) | Citations: 34,598 (100.0%) | arXiv: 26,074 (75.4%)

Built: Feb 14, 2026, 11:22 PM AMS

17

papers

536

total citations

papers (17)

DiT-3D: Exploring Plain Diffusion Transformers for 3D Shape Generation

NEURIPS 2023arXiv

Localizing Visual Sounds the Easy Way

A Closer Look at Weakly-Supervised Audio-Visual Source Localization

NEURIPS 2022arXiv

Audio-Visual Grouping Network for Sound Localization From Mixtures

DiffComplete: Diffusion-based Generative 3D Shape Completion

NEURIPS 2023arXiv

Audio-Visual Class-Incremental Learning

Class-Incremental Grouping Network for Continual Audio-Visual Learning

Unveiling the Power of Audio-Visual Early Fusion Transformers with Dense Interactions through Masked Modeling

Weakly-Supervised Audio-Visual Segmentation

NEURIPS 2023arXiv

Audio-visual Generalized Zero-shot Learning the Easy Way

Fast Training of Diffusion Transformer with Extreme Masking for 3D Point Clouds Generation

Scaling Diffusion Mamba with Bidirectional SSMs for Efficient 3D Shape Generation

The Dynamic Duo of Collaborative Masking and Target for Advanced Masked Autoencoder Learning

"Unitail: Detecting, Reading, and Matching in Retail Scene"

GMAIL: Generative Modality Alignment for generated Image Learning

Foley-Flow: Coordinated Video-to-Audio Generation with Masked Audio-Visual Alignment and Dynamic Conditional Flows

Multi-modal Grouping Network for Weakly-Supervised Audio-Visual Video Parsing