Di Hu

papers

1,354

total citations

papers (18)

Discriminative Sounding Objects Localization via Self-supervised Audiovisual Matching

NEURIPS 2020arXiv

149

citations

Unsupervised Multi-Source Domain Adaptation for Person Re-Identification

CVPR 2021arXiv

citations

Cyclic Co-Learning of Sounding Object Visual Grounding and Sound Separation

CVPR 2021arXiv

citations

MMPareto: Boosting Multimodal Learning with Innocent Unimodal Assistance

ICML 2024arXiv

citations

Enhancing Multimodal Cooperation via Sample-level Modality Valuation

CVPR 2024arXiv

citations

Diagnosing and Re-learning for Balanced Multimodal Learning

ECCV 2024arXiv

citations

Prompting Segmentation with Sound Is Generalizable Audio-Visual Source Localizer

AAAI 2024arXiv

citations

Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes

ECCV 2024arXiv

citations

Crab: A Unified Audio-Visual Scene Understanding Model with Explicit Cooperation

CVPR 2025arXiv

citations

Phoenix: A Motion-based Self-Reflection Framework for Fine-grained Robotic Action Correction

CVPR 2025arXiv

citations

Towards Inadequately Pre-trained Models in Transfer Learning

ICCV 2023arXiv

citations

Adaptive Unimodal Regulation for Balanced Multimodal Information Acquisition

CVPR 2025arXiv

citations

Patch Matters: Training-free Fine-grained Image Caption Enhancement via Local Perception

CVPR 2025arXiv

citations

Cross-Task Transfer for Geotagged Audiovisual Aerial Scene Recognition

ECCV 2020arXiv

citations

MokA: Multimodal Low-Rank Adaptation for MLLMs

NEURIPS 2025arXiv

citations

Di Hu

papers (18)

Balanced Multimodal Learning via On-the-Fly Gradient Modulation

Learning To Answer Questions in Dynamic Audio-Visual Scenarios

Multiple Sound Sources Localization from Coarse to Fine

Discriminative Sounding Objects Localization via Self-supervised Audiovisual Matching

Unsupervised Multi-Source Domain Adaptation for Person Re-Identification

Cyclic Co-Learning of Sounding Object Visual Grounding and Sound Separation

MMPareto: Boosting Multimodal Learning with Innocent Unimodal Assistance

Enhancing Multimodal Cooperation via Sample-level Modality Valuation

Diagnosing and Re-learning for Balanced Multimodal Learning

Prompting Segmentation with Sound Is Generalizable Audio-Visual Source Localizer

Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes

Crab: A Unified Audio-Visual Scene Understanding Model with Explicit Cooperation

Phoenix: A Motion-based Self-Reflection Framework for Fine-grained Robotic Action Correction

Towards Inadequately Pre-trained Models in Transfer Learning

Adaptive Unimodal Regulation for Balanced Multimodal Information Acquisition

Patch Matters: Training-free Fine-grained Image Caption Enhancement via Local Perception

Cross-Task Transfer for Geotagged Audiovisual Aerial Scene Recognition

MokA: Multimodal Low-Rank Adaptation for MLLMs

papers (18)

Balanced Multimodal Learning via On-the-Fly Gradient Modulation

Learning To Answer Questions in Dynamic Audio-Visual Scenarios

Multiple Sound Sources Localization from Coarse to Fine

Discriminative Sounding Objects Localization via Self-supervised Audiovisual Matching

Unsupervised Multi-Source Domain Adaptation for Person Re-Identification

Cyclic Co-Learning of Sounding Object Visual Grounding and Sound Separation

MMPareto: Boosting Multimodal Learning with Innocent Unimodal Assistance

Enhancing Multimodal Cooperation via Sample-level Modality Valuation

Diagnosing and Re-learning for Balanced Multimodal Learning

Prompting Segmentation with Sound Is Generalizable Audio-Visual Source Localizer

Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes

Crab: A Unified Audio-Visual Scene Understanding Model with Explicit Cooperation

Phoenix: A Motion-based Self-Reflection Framework for Fine-grained Robotic Action Correction

Towards Inadequately Pre-trained Models in Transfer Learning

Adaptive Unimodal Regulation for Balanced Multimodal Information Acquisition

Patch Matters: Training-free Fine-grained Image Caption Enhancement via Local Perception

Cross-Task Transfer for Geotagged Audiovisual Aerial Scene Recognition

MokA: Multimodal Low-Rank Adaptation for MLLMs