Yapeng Tian

papers

2,179

total citations

papers (24)

Transformer-Empowered Multi-Scale Contextual Matching and Aggregation for Multi-Contrast MRI Super-Resolution

CVPR 2022arXiv

citations

Cyclic Co-Learning of Sounding Object Visual Grounding and Sound Separation

CVPR 2021arXiv

citations

Audio-Visual Grouping Network for Sound Localization From Mixtures

CVPR 2023arXiv

citations

AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene Synthesis

NEURIPS 2023arXiv

citations

Egocentric Audio-Visual Object Localization

CVPR 2023arXiv

citations

Can Audio-Visual Integration Strengthen Robustness Under Multimodal Attacks?

CVPR 2021arXiv

citations

Audio-Visual Class-Incremental Learning

ICCV 2023arXiv

citations

Class-Incremental Grouping Network for Continual Audio-Visual Learning

ICCV 2023arXiv

citations

Structured Sparsity Learning for Efficient Video Super-Resolution

CVPR 2023arXiv

citations

Disentangled Counterfactual Learning for Physical Audiovisual Commonsense Reasoning

NEURIPS 2023arXiv

citations

T-VSL: Text-Guided Visual Sound Source Localization in Mixtures

CVPR 2024arXiv

citations

VinTAGe: Joint Video and Text Conditioning for Holistic Audio Generation

CVPR 2025arXiv

citations

Motion-Grounded Video Reasoning: Understanding and Perceiving Motion at Pixel Level

CVPR 2025arXiv

citations

Efficient Self-Improvement in Multimodal Large Language Models: A Model-Level Judge-Free Approach

COLM 2025arXiv

citations

Learning Spatio-Temporal Downsampling for Effective Video Upscaling

ECCV 2022arXiv

citations

PRVQL: Progressive Knowledge-guided Refinement for Robust Egocentric Visual Query Localization

ICCV 2025arXiv

citations

ZFusion: Efficient Deep Compositional Zero-shot Learning for Blind Image Super-Resolution with Generative Diffusion Prior

ICCV 2025

citations

Multi-modal Grouping Network for Weakly-Supervised Audio-Visual Video Parsing

NEURIPS 2022

citations

Video Matting via Consistency-Regularized Graph Neural Networks

ICCV 2021

citations

Yapeng Tian

papers (24)

TDAN: Temporally-Deformable Alignment Network for Video Super-Resolution

DiffIR: Efficient Diffusion Model for Image Restoration

Learning To Answer Questions in Dynamic Audio-Visual Scenarios

Unified Multisensory Perception: Weakly-Supervised Audio-Visual Video Parsing

Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video Super-Resolution

Transformer-Empowered Multi-Scale Contextual Matching and Aggregation for Multi-Contrast MRI Super-Resolution

Cyclic Co-Learning of Sounding Object Visual Grounding and Sound Separation

Audio-Visual Grouping Network for Sound Localization From Mixtures

AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene Synthesis

Egocentric Audio-Visual Object Localization

Can Audio-Visual Integration Strengthen Robustness Under Multimodal Attacks?

Audio-Visual Class-Incremental Learning

Class-Incremental Grouping Network for Continual Audio-Visual Learning

Structured Sparsity Learning for Efficient Video Super-Resolution

Disentangled Counterfactual Learning for Physical Audiovisual Commonsense Reasoning

T-VSL: Text-Guided Visual Sound Source Localization in Mixtures

VinTAGe: Joint Video and Text Conditioning for Holistic Audio Generation

Motion-Grounded Video Reasoning: Understanding and Perceiving Motion at Pixel Level

Efficient Self-Improvement in Multimodal Large Language Models: A Model-Level Judge-Free Approach

Learning Spatio-Temporal Downsampling for Effective Video Upscaling

PRVQL: Progressive Knowledge-guided Refinement for Robust Egocentric Visual Query Localization

ZFusion: Efficient Deep Compositional Zero-shot Learning for Blind Image Super-Resolution with Generative Diffusion Prior

Multi-modal Grouping Network for Weakly-Supervised Audio-Visual Video Parsing

Video Matting via Consistency-Regularized Graph Neural Networks

papers (24)

TDAN: Temporally-Deformable Alignment Network for Video Super-Resolution

DiffIR: Efficient Diffusion Model for Image Restoration

Learning To Answer Questions in Dynamic Audio-Visual Scenarios

Unified Multisensory Perception: Weakly-Supervised Audio-Visual Video Parsing

Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video Super-Resolution

Transformer-Empowered Multi-Scale Contextual Matching and Aggregation for Multi-Contrast MRI Super-Resolution

Cyclic Co-Learning of Sounding Object Visual Grounding and Sound Separation

Audio-Visual Grouping Network for Sound Localization From Mixtures

AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene Synthesis

Egocentric Audio-Visual Object Localization

Can Audio-Visual Integration Strengthen Robustness Under Multimodal Attacks?

Audio-Visual Class-Incremental Learning

Class-Incremental Grouping Network for Continual Audio-Visual Learning

Structured Sparsity Learning for Efficient Video Super-Resolution

Disentangled Counterfactual Learning for Physical Audiovisual Commonsense Reasoning

T-VSL: Text-Guided Visual Sound Source Localization in Mixtures

VinTAGe: Joint Video and Text Conditioning for Holistic Audio Generation

Motion-Grounded Video Reasoning: Understanding and Perceiving Motion at Pixel Level

Efficient Self-Improvement in Multimodal Large Language Models: A Model-Level Judge-Free Approach

Learning Spatio-Temporal Downsampling for Effective Video Upscaling

PRVQL: Progressive Knowledge-guided Refinement for Robust Egocentric Visual Query Localization

ZFusion: Efficient Deep Compositional Zero-shot Learning for Blind Image Super-Resolution with Generative Diffusion Prior

Multi-modal Grouping Network for Weakly-Supervised Audio-Visual Video Parsing

Video Matting via Consistency-Regularized Graph Neural Networks