Baining Guo

papers

37,885

total citations

papers (23)

Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows

ICCV 2021arXiv

29,293

citations

Swin Transformer V2: Scaling Up Capacity and Resolution

CVPR 2022arXiv

2,487

citations

CSWin Transformer: A General Vision Transformer Backbone With Cross-Shaped Windows

CVPR 2022arXiv

1,252

citations

MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation

CVPR 2023arXiv

259

citations

Advancing High-Resolution Video-Language Representation With Large-Scale Video Transcriptions

CVPR 2022arXiv

254

citations

Efficient Diffusion Training via Min-SNR Weighting Strategy

ICCV 2023arXiv

228

citations

Protecting Celebrities From DeepFake With Identity Consistency Transformer

CVPR 2022arXiv

164

citations

InstructDiffusion: A Generalist Modeling Interface for Vision Tasks

CVPR 2024arXiv

162

citations

CCEdit: Creative and Controllable Video Editing via Diffusion Models

CVPR 2024arXiv

citations

Adaptive Frequency Filters As Efficient Global Token Mixers

ICCV 2023arXiv

citations

Improved Noise Schedule for Diffusion Training

ICCV 2025arXiv

citations

MicroCinema: A Divide-and-Conquer Approach for Text-to-Video Generation

CVPR 2024arXiv

citations

ART: Anonymous Region Transformer for Variable Multi-Layer Transparent Image Generation

CVPR 2025arXiv

citations

UniGraspTransformer: Simplified Policy Distillation for Scalable Dexterous Robotic Grasping

CVPR 2025arXiv

citations

Gaussian Variation Field Diffusion for High-fidelity Video-to-4D Synthesis

ICCV 2025arXiv

citations

VideoVLA: Video Generators Can Be Generalizable Robot Manipulators

NEURIPS 2025arXiv

citations

iCLIP: Bridging Image Classification and Contrastive Language-Image Pre-Training for Visual Recognition

CVPR 2023

citations

Improving CLIP Fine-tuning Performance

ICCV 2023

citations

Baining Guo

papers (23)

Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows

Swin Transformer V2: Scaling Up Capacity and Resolution

CSWin Transformer: A General Vision Transformer Backbone With Cross-Shaped Windows

Face X-Ray for More General Face Forgery Detection

Vector Quantized Diffusion Model for Text-to-Image Synthesis

Learning Texture Transformer Network for Image Super-Resolution

RODIN: A Generative Model for Sculpting 3D Digital Avatars Using Diffusion

StyleSwin: Transformer-Based GAN for High-Resolution Image Generation

MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation

Advancing High-Resolution Video-Language Representation With Large-Scale Video Transcriptions

Efficient Diffusion Training via Min-SNR Weighting Strategy

Protecting Celebrities From DeepFake With Identity Consistency Transformer

InstructDiffusion: A Generalist Modeling Interface for Vision Tasks

CCEdit: Creative and Controllable Video Editing via Diffusion Models

Adaptive Frequency Filters As Efficient Global Token Mixers

Improved Noise Schedule for Diffusion Training

MicroCinema: A Divide-and-Conquer Approach for Text-to-Video Generation

ART: Anonymous Region Transformer for Variable Multi-Layer Transparent Image Generation

UniGraspTransformer: Simplified Policy Distillation for Scalable Dexterous Robotic Grasping

Gaussian Variation Field Diffusion for High-fidelity Video-to-4D Synthesis

VideoVLA: Video Generators Can Be Generalizable Robot Manipulators

iCLIP: Bridging Image Classification and Contrastive Language-Image Pre-Training for Visual Recognition

Improving CLIP Fine-tuning Performance

papers (23)

Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows

Swin Transformer V2: Scaling Up Capacity and Resolution

CSWin Transformer: A General Vision Transformer Backbone With Cross-Shaped Windows

Face X-Ray for More General Face Forgery Detection

Vector Quantized Diffusion Model for Text-to-Image Synthesis

Learning Texture Transformer Network for Image Super-Resolution

RODIN: A Generative Model for Sculpting 3D Digital Avatars Using Diffusion

StyleSwin: Transformer-Based GAN for High-Resolution Image Generation

MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation

Advancing High-Resolution Video-Language Representation With Large-Scale Video Transcriptions

Efficient Diffusion Training via Min-SNR Weighting Strategy

Protecting Celebrities From DeepFake With Identity Consistency Transformer

InstructDiffusion: A Generalist Modeling Interface for Vision Tasks

CCEdit: Creative and Controllable Video Editing via Diffusion Models

Adaptive Frequency Filters As Efficient Global Token Mixers

Improved Noise Schedule for Diffusion Training

MicroCinema: A Divide-and-Conquer Approach for Text-to-Video Generation

ART: Anonymous Region Transformer for Variable Multi-Layer Transparent Image Generation

UniGraspTransformer: Simplified Policy Distillation for Scalable Dexterous Robotic Grasping

Gaussian Variation Field Diffusion for High-fidelity Video-to-4D Synthesis

VideoVLA: Video Generators Can Be Generalizable Robot Manipulators

iCLIP: Bridging Image Classification and Contrastive Language-Image Pre-Training for Visual Recognition

Improving CLIP Fine-tuning Performance