Yuxuan Wang

Affiliations

Peking University

papers

669

total citations

papers (22)

MMAR: A Challenging Benchmark for Deep Reasoning in Speech, Audio, Music, and Their Mix

NEURIPS 2025arXiv

citations

Neural Dubber: Dubbing for Videos According to Scripts

NEURIPS 2021arXiv

citations

Language Model Can Listen While Speaking

AAAI 2025arXiv

citations

DiTAR: Diffusion Transformer Autoregressive Modeling for Speech Generation

ICML 2025arXiv

citations

PolyVoice: Language Models for Speech to Speech Translation

ICLR 2024arXiv

citations

TimeSiam: A Pre-Training Framework for Siamese Time-Series Modeling

ICML 2024arXiv

citations

Nautilus: Locality-aware Autoencoder for Scalable Mesh Generation

ICCV 2025arXiv

citations

OmniMMI: A Comprehensive Multi-modal Interaction Benchmark in Streaming Video Contexts

CVPR 2025arXiv

citations

CVLUE: A New Benchmark Dataset for Chinese Vision-Language Understanding Evaluation

AAAI 2025arXiv

citations

VideoLLaMB: Long Streaming Video Understanding with Recurrent Memory Bridges

ICCV 2025arXiv

citations

Friends-MMC: A Dataset for Multi-modal Multi-party Conversation Understanding

AAAI 2025arXiv

citations

Reasoning Mamba: Hypergraph-Guided Region Relation Calculating for Weakly Supervised Affordance Grounding

CVPR 2025

citations

FairHuman: Boosting Hand and Face Quality in Human Image Generation with Minimum Potential Delay Fairness in Diffusion Models

ICCV 2025arXiv

citations

VGMamba: Attribute-to-Location Clue Reasoning for Quantity-Agnostic 3D Visual Grounding

ICCV 2025

citations

"GEB+: A Benchmark for Generic Event Boundary Captioning, Grounding and Retrieval"

ECCV 2022

citations

Empowering Convolutional Neural Nets with MetaSin Activation

NEURIPS 2023

citations

Sounding that Object: Interactive Object-Aware Image to Audio Generation

ICML 2025arXiv

citations

Vision-Language Interactive Relation Mining for Open-Vocabulary Scene Graph Generation

ICCV 2025

citations

Parallel Beam Search Algorithms for Domain-Independent Dynamic Programming

AAAI 2024

citations

Yuxuan Wang

Affiliations

papers (22)

SHIFT: A Synthetic Driving Dataset for Continuous Multi-Task Domain Adaptation

Efficient Neural Music Generation

video-SALMONN: Speech-Enhanced Audio-Visual Large Language Models

MMAR: A Challenging Benchmark for Deep Reasoning in Speech, Audio, Music, and Their Mix

Neural Dubber: Dubbing for Videos According to Scripts

Language Model Can Listen While Speaking

DiTAR: Diffusion Transformer Autoregressive Modeling for Speech Generation

PolyVoice: Language Models for Speech to Speech Translation

TimeSiam: A Pre-Training Framework for Siamese Time-Series Modeling

Nautilus: Locality-aware Autoencoder for Scalable Mesh Generation

OmniMMI: A Comprehensive Multi-modal Interaction Benchmark in Streaming Video Contexts

CVLUE: A New Benchmark Dataset for Chinese Vision-Language Understanding Evaluation

VideoLLaMB: Long Streaming Video Understanding with Recurrent Memory Bridges

Friends-MMC: A Dataset for Multi-modal Multi-party Conversation Understanding

Reasoning Mamba: Hypergraph-Guided Region Relation Calculating for Weakly Supervised Affordance Grounding

FairHuman: Boosting Hand and Face Quality in Human Image Generation with Minimum Potential Delay Fairness in Diffusion Models

VGMamba: Attribute-to-Location Clue Reasoning for Quantity-Agnostic 3D Visual Grounding

"GEB+: A Benchmark for Generic Event Boundary Captioning, Grounding and Retrieval"

Empowering Convolutional Neural Nets with MetaSin Activation

Sounding that Object: Interactive Object-Aware Image to Audio Generation

Vision-Language Interactive Relation Mining for Open-Vocabulary Scene Graph Generation

Parallel Beam Search Algorithms for Domain-Independent Dynamic Programming

papers (22)

SHIFT: A Synthetic Driving Dataset for Continuous Multi-Task Domain Adaptation

Efficient Neural Music Generation

video-SALMONN: Speech-Enhanced Audio-Visual Large Language Models

MMAR: A Challenging Benchmark for Deep Reasoning in Speech, Audio, Music, and Their Mix

Neural Dubber: Dubbing for Videos According to Scripts

Language Model Can Listen While Speaking

DiTAR: Diffusion Transformer Autoregressive Modeling for Speech Generation

PolyVoice: Language Models for Speech to Speech Translation

TimeSiam: A Pre-Training Framework for Siamese Time-Series Modeling

Nautilus: Locality-aware Autoencoder for Scalable Mesh Generation

OmniMMI: A Comprehensive Multi-modal Interaction Benchmark in Streaming Video Contexts

CVLUE: A New Benchmark Dataset for Chinese Vision-Language Understanding Evaluation

VideoLLaMB: Long Streaming Video Understanding with Recurrent Memory Bridges

Friends-MMC: A Dataset for Multi-modal Multi-party Conversation Understanding

Reasoning Mamba: Hypergraph-Guided Region Relation Calculating for Weakly Supervised Affordance Grounding

FairHuman: Boosting Hand and Face Quality in Human Image Generation with Minimum Potential Delay Fairness in Diffusion Models

VGMamba: Attribute-to-Location Clue Reasoning for Quantity-Agnostic 3D Visual Grounding

"GEB+: A Benchmark for Generic Event Boundary Captioning, Grounding and Retrieval"

Empowering Convolutional Neural Nets with MetaSin Activation

Sounding that Object: Interactive Object-Aware Image to Audio Generation

Vision-Language Interactive Relation Mining for Open-Vocabulary Scene Graph Generation

Parallel Beam Search Algorithms for Domain-Independent Dynamic Programming