Qi Dai

papers

2,737

total citations

papers (23)

ChartReader: A Unified Framework for Chart Derendering and Comprehension without Heuristic Rules

ICCV 2023arXiv

citations

MicroCinema: A Divide-and-Conquer Approach for Text-to-Video Generation

CVPR 2024arXiv

citations

AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction

ICCV 2025arXiv

citations

FloVD: Optical Flow Meets Video Diffusion Model for Enhanced Camera-Controlled Video Synthesis

CVPR 2025arXiv

citations

MotionFollower: Editing Video Motion via Score-Guided Diffusion

ICCV 2025

citations

MagicMotion: Controllable Video Generation with Dense-to-Sparse Trajectory Guidance

ICCV 2025arXiv

citations

Temporal Action Detection With Multi-Level Supervision

ICCV 2021arXiv

citations

REDUCIO! Generating 1K Video within 16 Seconds using Extremely Compressed Motion Latents

ICCV 2025arXiv

citations

JointDiT: Enhancing RGB-Depth Joint Modeling with Diffusion Transformers

ICCV 2025arXiv

citations

FaceA-Net: Facial Attribute-Driven ID Preserving Image Generation Network

AAAI 2025

citations

HomoGen: Enhanced Video Inpainting via Homography Propagation and Diffusion

CVPR 2025

citations

BlockGCN: Redefine Topology Awareness for Skeleton-Based Action Recognition

CVPR 2024

citations

Qi Dai

papers (23)

SimMIM: A Simple Framework for Masked Image Modeling

Weakly-Supervised Action Localization by Generative Attention Modeling

Rethinking Spatial Invariance of Convolutional Networks for Object Counting

SVFormer: Semi-Supervised Video Transformer for Action Recognition

SimDA: Simple Diffusion Adapter for Efficient Video Generation

On Data Scaling in Masked Image Modeling

StableAnimator: High-Quality Identity-Preserving Human Image Animation

Implicit Temporal Modeling with Learnable Alignment for Video Recognition

MotionEditor: Editing Video Motion via Content-Aware Diffusion

All in Tokens: Unifying Output Space of Visual Tasks via Soft Token

ResFormer: Scaling ViTs With Multi-Resolution Training

ChartReader: A Unified Framework for Chart Derendering and Comprehension without Heuristic Rules

MicroCinema: A Divide-and-Conquer Approach for Text-to-Video Generation

AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction

FloVD: Optical Flow Meets Video Diffusion Model for Enhanced Camera-Controlled Video Synthesis

MotionFollower: Editing Video Motion via Score-Guided Diffusion

MagicMotion: Controllable Video Generation with Dense-to-Sparse Trajectory Guidance

Temporal Action Detection With Multi-Level Supervision

REDUCIO! Generating 1K Video within 16 Seconds using Extremely Compressed Motion Latents

JointDiT: Enhancing RGB-Depth Joint Modeling with Diffusion Transformers

FaceA-Net: Facial Attribute-Driven ID Preserving Image Generation Network

HomoGen: Enhanced Video Inpainting via Homography Propagation and Diffusion

BlockGCN: Redefine Topology Awareness for Skeleton-Based Action Recognition

papers (23)

SimMIM: A Simple Framework for Masked Image Modeling

Weakly-Supervised Action Localization by Generative Attention Modeling

Rethinking Spatial Invariance of Convolutional Networks for Object Counting

SVFormer: Semi-Supervised Video Transformer for Action Recognition

SimDA: Simple Diffusion Adapter for Efficient Video Generation

On Data Scaling in Masked Image Modeling

StableAnimator: High-Quality Identity-Preserving Human Image Animation

Implicit Temporal Modeling with Learnable Alignment for Video Recognition

MotionEditor: Editing Video Motion via Content-Aware Diffusion

All in Tokens: Unifying Output Space of Visual Tasks via Soft Token

ResFormer: Scaling ViTs With Multi-Resolution Training

ChartReader: A Unified Framework for Chart Derendering and Comprehension without Heuristic Rules

MicroCinema: A Divide-and-Conquer Approach for Text-to-Video Generation

AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction

FloVD: Optical Flow Meets Video Diffusion Model for Enhanced Camera-Controlled Video Synthesis

MotionFollower: Editing Video Motion via Score-Guided Diffusion

MagicMotion: Controllable Video Generation with Dense-to-Sparse Trajectory Guidance

Temporal Action Detection With Multi-Level Supervision

REDUCIO! Generating 1K Video within 16 Seconds using Extremely Compressed Motion Latents

JointDiT: Enhancing RGB-Depth Joint Modeling with Diffusion Transformers

FaceA-Net: Facial Attribute-Driven ID Preserving Image Generation Network

HomoGen: Enhanced Video Inpainting via Homography Propagation and Diffusion

BlockGCN: Redefine Topology Awareness for Skeleton-Based Action Recognition