Yuhang Cao

papers

1,420

total citations

papers (17)

SAM2Long: Enhancing SAM 2 for Long Video Segmentation with a Training-Free Memory Tree

ICCV 2025arXiv

citations

OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video Understanding?

CVPR 2025arXiv

citations

Dispider: Enabling Video LLMs with Active Real-Time Interaction via Disentangled Perception, Decision, and Reaction

CVPR 2025arXiv

citations

SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation

ICML 2025arXiv

citations

MM-IFEngine: Towards Multimodal Instruction Following

ICCV 2025arXiv

citations

MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models

ICLR 2025arXiv

citations

Light-A-Video: Training-free Video Relighting via Progressive Light Fusion

ICCV 2025arXiv

citations

HiFlow: Training-free High-Resolution Image Generation with Flow-Aligned Guidance

NEURIPS 2025arXiv

citations

ByTheWay: Boost Your Text-to-Video Generation Model to Higher Quality in a Training-free Way

CVPR 2025arXiv

citations

Conical Visual Concentration for Efficient Large Vision-Language Models

CVPR 2025

citations

Deciphering Cross-Modal Alignment in Large Vision-Language Models via Modality Integration Rate

ICCV 2025

citations

Yuhang Cao

papers (17)

Visual-RFT: Visual Reinforcement Fine-Tuning

Seesaw Loss for Long-Tailed Instance Segmentation

Prime Sample Attention in Object Detection

Side-Aware Boundary Localization for More Precise Object Detection

Few-Shot Object Detection via Association and DIscrimination

V3Det: Vast Vocabulary Visual Detection Dataset

SAM2Long: Enhancing SAM 2 for Long Video Segmentation with a Training-Free Memory Tree

OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video Understanding?

Dispider: Enabling Video LLMs with Active Real-Time Interaction via Disentangled Perception, Decision, and Reaction

SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation

MM-IFEngine: Towards Multimodal Instruction Following

MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models

Light-A-Video: Training-free Video Relighting via Progressive Light Fusion

HiFlow: Training-free High-Resolution Image Generation with Flow-Aligned Guidance

ByTheWay: Boost Your Text-to-Video Generation Model to Higher Quality in a Training-free Way

Conical Visual Concentration for Efficient Large Vision-Language Models

Deciphering Cross-Modal Alignment in Large Vision-Language Models via Modality Integration Rate

papers (17)

Visual-RFT: Visual Reinforcement Fine-Tuning

Seesaw Loss for Long-Tailed Instance Segmentation

Prime Sample Attention in Object Detection

Side-Aware Boundary Localization for More Precise Object Detection

Few-Shot Object Detection via Association and DIscrimination

V3Det: Vast Vocabulary Visual Detection Dataset

SAM2Long: Enhancing SAM 2 for Long Video Segmentation with a Training-Free Memory Tree

OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video Understanding?

Dispider: Enabling Video LLMs with Active Real-Time Interaction via Disentangled Perception, Decision, and Reaction

SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation

MM-IFEngine: Towards Multimodal Instruction Following

MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models

Light-A-Video: Training-free Video Relighting via Progressive Light Fusion

HiFlow: Training-free High-Resolution Image Generation with Flow-Aligned Guidance

ByTheWay: Boost Your Text-to-Video Generation Model to Higher Quality in a Training-free Way

Conical Visual Concentration for Efficient Large Vision-Language Models

Deciphering Cross-Modal Alignment in Large Vision-Language Models via Modality Integration Rate