Xiaoyi Dong

papers

3,700

total citations

papers (26)

CSWin Transformer: A General Vision Transformer Backbone With Cross-Shaped Windows

CVPR 2022arXiv

1,252

citations

Mobile-Former: Bridging MobileNet and Transformer

CVPR 2022arXiv

634

citations

OPERA: Alleviating Hallucination in Multi-Modal Large Language Models via Over-Trust Penalty and Retrospection-Allocation

CVPR 2024arXiv

385

citations

Visual-RFT: Visual Reinforcement Fine-Tuning

ICCV 2025arXiv

357

citations

MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image Pretraining

CVPR 2023arXiv

231

citations

Protecting Celebrities From DeepFake With Identity Consistency Transformer

CVPR 2022arXiv

164

citations

LG-GAN: Label Guided Adversarial Network for Flexible Targeted Attack of Point Cloud Based Deep Networks

CVPR 2020arXiv

121

citations

SAM2Long: Enhancing SAM 2 for Long Video Segmentation with a Training-Free Memory Tree

ICCV 2025arXiv

citations

OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video Understanding?

CVPR 2025arXiv

citations

Dispider: Enabling Video LLMs with Active Real-Time Interaction via Disentangled Perception, Decision, and Reaction

CVPR 2025arXiv

citations

MM-IFEngine: Towards Multimodal Instruction Following

ICCV 2025arXiv

citations

Light-A-Video: Training-free Video Relighting via Progressive Light Fusion

ICCV 2025arXiv

citations

Emotional Listener Portrait: Neural Listener Head Generation with Emotion

ICCV 2023arXiv

citations

Improving Adversarial Robustness of Masked Autoencoders via Test-time Frequency-domain Prompting

ICCV 2023arXiv

citations

ByTheWay: Boost Your Text-to-Video Generation Model to Higher Quality in a Training-free Way

CVPR 2025arXiv

citations

Bootstrap3D: Improving Multi-view Diffusion Model with Synthetic Data

ICCV 2025arXiv

citations

Robust Superpixel-Guided Attentional Adversarial Attack

CVPR 2020

citations

Conical Visual Concentration for Efficient Large Vision-Language Models

CVPR 2025

citations

Adaptive Face Forgery Detection in Cross Domain

ECCV 2022

citations

Self-Robust 3D Point Recognition via Gather-Vector Guidance

CVPR 2020

citations

X-Prompt: Generalizable Auto-Regressive Visual Learning with In-Context Prompting

ICCV 2025

citations

Deciphering Cross-Modal Alignment in Large Vision-Language Models via Modality Integration Rate

ICCV 2025

citations

Xiaoyi Dong

papers (26)

CSWin Transformer: A General Vision Transformer Backbone With Cross-Shaped Windows

Mobile-Former: Bridging MobileNet and Transformer

OPERA: Alleviating Hallucination in Multi-Modal Large Language Models via Over-Trust Penalty and Retrospection-Allocation

Visual-RFT: Visual Reinforcement Fine-Tuning

MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image Pretraining

Protecting Celebrities From DeepFake With Identity Consistency Transformer

LG-GAN: Label Guided Adversarial Network for Flexible Targeted Attack of Point Cloud Based Deep Networks

Shape-Invariant 3D Adversarial Point Clouds

Bootstrapped Masked Autoencoders for Vision BERT Pretraining

Diversity-Aware Meta Visual Prompting

GreedyFool: Distortion-Aware Sparse Adversarial Attack

SAM2Long: Enhancing SAM 2 for Long Video Segmentation with a Training-Free Memory Tree

OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video Understanding?

Dispider: Enabling Video LLMs with Active Real-Time Interaction via Disentangled Perception, Decision, and Reaction

MM-IFEngine: Towards Multimodal Instruction Following

Light-A-Video: Training-free Video Relighting via Progressive Light Fusion

Emotional Listener Portrait: Neural Listener Head Generation with Emotion

Improving Adversarial Robustness of Masked Autoencoders via Test-time Frequency-domain Prompting

ByTheWay: Boost Your Text-to-Video Generation Model to Higher Quality in a Training-free Way

Bootstrap3D: Improving Multi-view Diffusion Model with Synthetic Data

Robust Superpixel-Guided Attentional Adversarial Attack

Conical Visual Concentration for Efficient Large Vision-Language Models

Adaptive Face Forgery Detection in Cross Domain

Self-Robust 3D Point Recognition via Gather-Vector Guidance

X-Prompt: Generalizable Auto-Regressive Visual Learning with In-Context Prompting

Deciphering Cross-Modal Alignment in Large Vision-Language Models via Modality Integration Rate

papers (26)

CSWin Transformer: A General Vision Transformer Backbone With Cross-Shaped Windows

Mobile-Former: Bridging MobileNet and Transformer

OPERA: Alleviating Hallucination in Multi-Modal Large Language Models via Over-Trust Penalty and Retrospection-Allocation

Visual-RFT: Visual Reinforcement Fine-Tuning

MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image Pretraining

Protecting Celebrities From DeepFake With Identity Consistency Transformer

LG-GAN: Label Guided Adversarial Network for Flexible Targeted Attack of Point Cloud Based Deep Networks

Shape-Invariant 3D Adversarial Point Clouds

Bootstrapped Masked Autoencoders for Vision BERT Pretraining

Diversity-Aware Meta Visual Prompting

GreedyFool: Distortion-Aware Sparse Adversarial Attack

SAM2Long: Enhancing SAM 2 for Long Video Segmentation with a Training-Free Memory Tree

OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video Understanding?

Dispider: Enabling Video LLMs with Active Real-Time Interaction via Disentangled Perception, Decision, and Reaction

MM-IFEngine: Towards Multimodal Instruction Following

Light-A-Video: Training-free Video Relighting via Progressive Light Fusion

Emotional Listener Portrait: Neural Listener Head Generation with Emotion

Improving Adversarial Robustness of Masked Autoencoders via Test-time Frequency-domain Prompting

ByTheWay: Boost Your Text-to-Video Generation Model to Higher Quality in a Training-free Way

Bootstrap3D: Improving Multi-view Diffusion Model with Synthetic Data

Robust Superpixel-Guided Attentional Adversarial Attack

Conical Visual Concentration for Efficient Large Vision-Language Models

Adaptive Face Forgery Detection in Cross Domain

Self-Robust 3D Point Recognition via Gather-Vector Guidance

X-Prompt: Generalizable Auto-Regressive Visual Learning with In-Context Prompting

Deciphering Cross-Modal Alignment in Large Vision-Language Models via Modality Integration Rate