Xiaodong Cun

OpenReview

Affiliations

Great Bay University

papers

6,130

total citations

papers (29)

Uformer: A General U-Shaped Transformer for Image Restoration

CVPR 2022arXiv

1,928

citations

Generating Human Motion From Textual Descriptions With Discrete Representations

CVPR 2023arXiv

547

citations

VideoCrafter2: Overcoming Data Limitations for High-Quality Video Diffusion Models

CVPR 2024arXiv

512

citations

FateZero: Fusing Attentions for Zero-shot Text-based Video Editing

ICCV 2023arXiv

475

citations

SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation

CVPR 2023arXiv

414

citations

Follow Your Pose: Pose-Guided Text-to-Video Generation Using Pose-Free Videos

AAAI 2024arXiv

284

citations

EvalCrafter: Benchmarking and Evaluating Large Video Generation Models

CVPR 2024arXiv

248

citations

StyleHEAT: One-Shot High-Resolution Editable Talking Face Generation via Pre-trained StyleGAN

ECCV 2022arXiv

215

citations

SmartEdit: Exploring Complex Instruction-based Image Editing with Multimodal Large Language Models

CVPR 2024arXiv

143

citations

ScaleCrafter: Tuning-free Higher-Resolution Visual Generation with Diffusion Models

ICLR 2024arXiv

111

citations

DEIM: DETR with Improved Matching for Fast Convergence

CVPR 2025arXiv

107

citations

Inserting Anybody in Diffusion Models via Celeb Basis

NEURIPS 2023arXiv

citations

High-Resolution Document Shadow Removal via A Large-Scale Real-World Dataset and A Frequency-Aware Shadow Erasing Net

ICCV 2023arXiv

citations

DPE: Disentanglement of Pose and Expression for General Video Portrait Editing

CVPR 2023arXiv

citations

3D GAN Inversion With Facial Symmetry Prior

CVPR 2023arXiv

citations

Make a Cheap Scaling: A Self-Cascade Diffusion Model for Higher-Resolution Adaptation

ECCV 2024arXiv

citations

Spatial-Separated Curve Rendering Network for Efficient and High-Resolution Image Harmonization

ECCV 2022arXiv

citations

DiTCtrl: Exploring Attention Control in Multi-Modal Diffusion Transformer for Tuning-Free Multi-Prompt Longer Video Generation

CVPR 2025arXiv

citations

LivelySpeaker: Towards Semantic-Aware Co-Speech Gesture Generation

ICCV 2023arXiv

citations

Depth-aware Test-Time Training for Zero-shot Video Object Segmentation

CVPR 2024arXiv

citations

Defocus Blur Detection via Depth Distillation

ECCV 2020arXiv

citations

Make-Your-Anchor: A Diffusion-based 2D Avatar Generation Framework

CVPR 2024arXiv

citations

X-Adapter: Adding Universal Compatibility of Plugins for Upgraded Diffusion Model

CVPR 2024arXiv

citations

ToonTalker: Cross-Domain Face Reenactment

ICCV 2023arXiv

citations

CustomTTT: Motion and Appearance Customized Video Generation via Test-Time Training

AAAI 2025arXiv

citations

Noise Calibration: Plug-and-play Content-Preserving Video Enhancement using Pre-trained Video Diffusion Models

ECCV 2024arXiv

citations

Xiaodong Cun

Affiliations

papers (29)

Uformer: A General U-Shaped Transformer for Image Restoration

Generating Human Motion From Textual Descriptions With Discrete Representations

VideoCrafter2: Overcoming Data Limitations for High-Quality Video Diffusion Models

FateZero: Fusing Attentions for Zero-shot Text-based Video Editing

SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation

Follow Your Pose: Pose-Guided Text-to-Video Generation Using Pose-Free Videos

EvalCrafter: Benchmarking and Evaluating Large Video Generation Models

StyleHEAT: One-Shot High-Resolution Editable Talking Face Generation via Pre-trained StyleGAN

CodeTalker: Speech-Driven 3D Facial Animation With Discrete Motion Prior

Explicit Visual Prompting for Low-Level Structure Segmentations

DepthCrafter: Generating Consistent Long Depth Sequences for Open-world Videos

SmartEdit: Exploring Complex Instruction-based Image Editing with Multimodal Large Language Models

ScaleCrafter: Tuning-free Higher-Resolution Visual Generation with Diffusion Models

DEIM: DETR with Improved Matching for Fast Convergence

Inserting Anybody in Diffusion Models via Celeb Basis

High-Resolution Document Shadow Removal via A Large-Scale Real-World Dataset and A Frequency-Aware Shadow Erasing Net

DPE: Disentanglement of Pose and Expression for General Video Portrait Editing

3D GAN Inversion With Facial Symmetry Prior

Make a Cheap Scaling: A Self-Cascade Diffusion Model for Higher-Resolution Adaptation

Spatial-Separated Curve Rendering Network for Efficient and High-Resolution Image Harmonization

DiTCtrl: Exploring Attention Control in Multi-Modal Diffusion Transformer for Tuning-Free Multi-Prompt Longer Video Generation

LivelySpeaker: Towards Semantic-Aware Co-Speech Gesture Generation

Depth-aware Test-Time Training for Zero-shot Video Object Segmentation

Defocus Blur Detection via Depth Distillation

Make-Your-Anchor: A Diffusion-based 2D Avatar Generation Framework

X-Adapter: Adding Universal Compatibility of Plugins for Upgraded Diffusion Model

ToonTalker: Cross-Domain Face Reenactment

CustomTTT: Motion and Appearance Customized Video Generation via Test-Time Training

Noise Calibration: Plug-and-play Content-Preserving Video Enhancement using Pre-trained Video Diffusion Models

papers (29)

Uformer: A General U-Shaped Transformer for Image Restoration

Generating Human Motion From Textual Descriptions With Discrete Representations

VideoCrafter2: Overcoming Data Limitations for High-Quality Video Diffusion Models

FateZero: Fusing Attentions for Zero-shot Text-based Video Editing

SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation

Follow Your Pose: Pose-Guided Text-to-Video Generation Using Pose-Free Videos

EvalCrafter: Benchmarking and Evaluating Large Video Generation Models

StyleHEAT: One-Shot High-Resolution Editable Talking Face Generation via Pre-trained StyleGAN

CodeTalker: Speech-Driven 3D Facial Animation With Discrete Motion Prior

Explicit Visual Prompting for Low-Level Structure Segmentations

DepthCrafter: Generating Consistent Long Depth Sequences for Open-world Videos

SmartEdit: Exploring Complex Instruction-based Image Editing with Multimodal Large Language Models

ScaleCrafter: Tuning-free Higher-Resolution Visual Generation with Diffusion Models

DEIM: DETR with Improved Matching for Fast Convergence

Inserting Anybody in Diffusion Models via Celeb Basis

High-Resolution Document Shadow Removal via A Large-Scale Real-World Dataset and A Frequency-Aware Shadow Erasing Net

DPE: Disentanglement of Pose and Expression for General Video Portrait Editing

3D GAN Inversion With Facial Symmetry Prior

Make a Cheap Scaling: A Self-Cascade Diffusion Model for Higher-Resolution Adaptation

Spatial-Separated Curve Rendering Network for Efficient and High-Resolution Image Harmonization

DiTCtrl: Exploring Attention Control in Multi-Modal Diffusion Transformer for Tuning-Free Multi-Prompt Longer Video Generation

LivelySpeaker: Towards Semantic-Aware Co-Speech Gesture Generation

Depth-aware Test-Time Training for Zero-shot Video Object Segmentation

Defocus Blur Detection via Depth Distillation

Make-Your-Anchor: A Diffusion-based 2D Avatar Generation Framework

X-Adapter: Adding Universal Compatibility of Plugins for Upgraded Diffusion Model

ToonTalker: Cross-Domain Face Reenactment

CustomTTT: Motion and Appearance Customized Video Generation via Test-Time Training

Noise Calibration: Plug-and-play Content-Preserving Video Enhancement using Pre-trained Video Diffusion Models