Yinan He

OpenReview

papers

3,900

total citations

papers (16)

InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation

ICLR 2024arXiv

419

citations

VideoMamba: State Space Model for Efficient Video Understanding

ECCV 2024arXiv

407

citations

Unmasked Teacher: Towards Training-Efficient Video Foundation Models

ICCV 2023arXiv

246

citations

ForgeryNet: A Versatile Benchmark for Comprehensive Forgery Analysis

CVPR 2021arXiv

183

citations

OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text

ICLR 2025arXiv

citations

Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment

CVPR 2025arXiv

citations

VideoChat-R1.5: Visual Test-Time Scaling to Reinforce Multimodal Reasoning by Iterative Perception

NEURIPS 2025arXiv

citations

VRBench: A Benchmark for Multi-Step Reasoning in Long Narrative Videos

ICCV 2025arXiv

citations

X-Learner: Learning Cross Sources and Tasks for Universal Visual Representation

ECCV 2022arXiv

citations

ShotBench: Expert-Level Cinematic Understanding in Vision-Language Models

NEURIPS 2025arXiv

citations

DiffVSR: Revealing an Effective Recipe for Taming Robust Video Super-Resolution Against Complex Degradations

ICCV 2025arXiv

citations

WISNet: Pseudo Label Generation on Unbalanced and Patch Annotated Waste Images

CVPR 2025

citations

UniFormerV2: Unlocking the Potential of Image ViTs for Video Understanding

ICCV 2023

citations

Yinan He

papers (16)

VBench: Comprehensive Benchmark Suite for Video Generative Models

MVBench: A Comprehensive Multi-modal Video Understanding Benchmark

VideoMAE V2: Scaling Video Masked Autoencoders With Dual Masking

InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation

VideoMamba: State Space Model for Efficient Video Understanding

Unmasked Teacher: Towards Training-Efficient Video Foundation Models

ForgeryNet: A Versatile Benchmark for Comprehensive Forgery Analysis

OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text

Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment

VideoChat-R1.5: Visual Test-Time Scaling to Reinforce Multimodal Reasoning by Iterative Perception

VRBench: A Benchmark for Multi-Step Reasoning in Long Narrative Videos

X-Learner: Learning Cross Sources and Tasks for Universal Visual Representation

ShotBench: Expert-Level Cinematic Understanding in Vision-Language Models

DiffVSR: Revealing an Effective Recipe for Taming Robust Video Super-Resolution Against Complex Degradations

WISNet: Pseudo Label Generation on Unbalanced and Patch Annotated Waste Images

UniFormerV2: Unlocking the Potential of Image ViTs for Video Understanding

papers (16)

VBench: Comprehensive Benchmark Suite for Video Generative Models

MVBench: A Comprehensive Multi-modal Video Understanding Benchmark

VideoMAE V2: Scaling Video Masked Autoencoders With Dual Masking

InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation

VideoMamba: State Space Model for Efficient Video Understanding

Unmasked Teacher: Towards Training-Efficient Video Foundation Models

ForgeryNet: A Versatile Benchmark for Comprehensive Forgery Analysis

OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text

Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment

VideoChat-R1.5: Visual Test-Time Scaling to Reinforce Multimodal Reasoning by Iterative Perception

VRBench: A Benchmark for Multi-Step Reasoning in Long Narrative Videos

X-Learner: Learning Cross Sources and Tasks for Universal Visual Representation

ShotBench: Expert-Level Cinematic Understanding in Vision-Language Models

DiffVSR: Revealing an Effective Recipe for Taming Robust Video Super-Resolution Against Complex Degradations

WISNet: Pseudo Label Generation on Unbalanced and Patch Annotated Waste Images

UniFormerV2: Unlocking the Potential of Image ViTs for Video Understanding