Ming Yan

papers

1,314

total citations

papers (19)

mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration

CVPR 2024arXiv

614

citations

FedRolex: Model-Heterogeneous Federated Learning with Rolling Sub-Model Extraction

NEURIPS 2022arXiv

209

citations

Hallucination Augmented Contrastive Learning for Multimodal Large Language Model

CVPR 2024arXiv

121

citations

Shifting More Attention to Visual Backbone: Query-Modulated Refinement Networks for End-to-End Visual Grounding

CVPR 2022arXiv

citations

HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training

ICCV 2023arXiv

citations

WritingBench: A Comprehensive Benchmark for Generative Writing

NEURIPS 2025arXiv

citations

Communication-Efficient Topologies for Decentralized Learning with $O(1)$ Consensus Rate

NEURIPS 2022arXiv

citations

CIMI4D: A Large Multimodal Climbing Motion Dataset Under Human-Scene Interactions

CVPR 2023arXiv

citations

ErrorCompensatedX: error compensation for variance reduced algorithms

NEURIPS 2021arXiv

citations

Improved Visual Fine-tuning with Natural Language Supervision

ICCV 2023arXiv

citations

BUS: Efficient and Effective Vision-Language Pre-Training with Bottom-Up Patch Summarization.

ICCV 2023arXiv

citations

RELI11D: A Comprehensive Multimodal Human Motion Dataset and Method

CVPR 2024arXiv

citations

Learning Trajectory-Word Alignments for Video-Language Tasks

ICCV 2023arXiv

citations

SymDPO: Boosting In-Context Learning of Large Multimodal Models with Symbol Demonstration Direct Preference Optimization

CVPR 2025arXiv

citations

AdaMMS: Model Merging for Heterogeneous Multimodal Large Language Models with Unsupervised Coefficient Optimization

CVPR 2025arXiv

citations

TiMix: Text-Aware Image Mixing for Effective Vision-Language Pre-training

AAAI 2024arXiv

citations

RoDA: Robust Domain Alignment for Cross-Domain Retrieval Against Label Noise

AAAI 2025

citations

DiDA: Disambiguated Domain Alignment for Cross-Domain Retrieval with Partial Labels

AAAI 2024

citations

ClimbingCap: Multi-Modal Dataset and Method for Rock Climbing in World Coordinate

CVPR 2025arXiv

citations