Xiyang Dai

papers

8,917

total citations

papers (27)

Multi-Scale Vision Longformer: A New Vision Transformer for High-Resolution Image Encoding

ICCV 2021arXiv

374

citations

GLIPv2: Unifying Localization and Vision-Language Understanding

NEURIPS 2022arXiv

357

citations

Rewrite the Stars

CVPR 2024arXiv

352

citations

Generalized Decoding for Pixel, Image, and Language

CVPR 2023arXiv

336

citations

BEVT: BERT Pretraining of Video Transformers

CVPR 2022arXiv

249

citations

Dynamic ReLU

ECCV 2020arXiv

198

citations

Masked Video Distillation: Rethinking Masked Feature Modeling for Self-Supervised Video Representation Learning

CVPR 2023arXiv

121

citations

MicroNet: Improving Image Recognition With Extremely Low FLOPs

ICCV 2021arXiv

104

citations

Reduce Information Loss in Transformers for Pluralistic Image Inpainting

CVPR 2022arXiv

citations

Stronger NAS with Weaker Predictors

NEURIPS 2021arXiv

citations

Look Before You Match: Instance Understanding Matters in Video Object Segmentation

CVPR 2023arXiv

citations

Visual Clues: Bridging Vision and Language Foundations for Image Paragraph Captioning

NEURIPS 2022arXiv

citations

Detection Hub: Unifying Object Detection Datasets via Query Adaptation on Language Embedding

CVPR 2023arXiv

citations

DA-NAS: Data Adapted Pruning for Efficient Neural Architecture Search

ECCV 2020arXiv

citations

Learning from Rich Semantics and Coarse Locations for Long-tailed Object Detection

NEURIPS 2023arXiv

citations

Should All Proposals Be Treated Equally in Object Detection?

ECCV 2022arXiv

citations

Exploring Invariance in Images through One-way Wave Equations

ICML 2025arXiv

citations

Dynamic DETR: End-to-End Object Detection With Dynamic Attention

ICCV 2021

citations

Focal Attention for Long-Range Interactions in Vision Transformers

NEURIPS 2021

citations

METAL: Minimum Effort Temporal Activity Localization in Untrimmed Videos

CVPR 2020

citations

Xiyang Dai

papers (27)

CvT: Introducing Convolutions to Vision Transformers

Dynamic Convolution: Attention Over Convolution Kernels

Dynamic Head: Unifying Object Detection Heads With Attentions

RegionCLIP: Region-Based Language-Image Pretraining

Mobile-Former: Bridging MobileNet and Transformer

Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks

Focal Modulation Networks

Multi-Scale Vision Longformer: A New Vision Transformer for High-Resolution Image Encoding

GLIPv2: Unifying Localization and Vision-Language Understanding

Rewrite the Stars

Generalized Decoding for Pixel, Image, and Language

BEVT: BERT Pretraining of Video Transformers

Dynamic ReLU

Masked Video Distillation: Rethinking Masked Feature Modeling for Self-Supervised Video Representation Learning

MicroNet: Improving Image Recognition With Extremely Low FLOPs

Reduce Information Loss in Transformers for Pluralistic Image Inpainting

Stronger NAS with Weaker Predictors

Look Before You Match: Instance Understanding Matters in Video Object Segmentation

Visual Clues: Bridging Vision and Language Foundations for Image Paragraph Captioning

Detection Hub: Unifying Object Detection Datasets via Query Adaptation on Language Embedding

DA-NAS: Data Adapted Pruning for Efficient Neural Architecture Search

Learning from Rich Semantics and Coarse Locations for Long-tailed Object Detection

Should All Proposals Be Treated Equally in Object Detection?

Exploring Invariance in Images through One-way Wave Equations

Dynamic DETR: End-to-End Object Detection With Dynamic Attention

Focal Attention for Long-Range Interactions in Vision Transformers

METAL: Minimum Effort Temporal Activity Localization in Untrimmed Videos

papers (27)

CvT: Introducing Convolutions to Vision Transformers

Dynamic Convolution: Attention Over Convolution Kernels

Dynamic Head: Unifying Object Detection Heads With Attentions

RegionCLIP: Region-Based Language-Image Pretraining

Mobile-Former: Bridging MobileNet and Transformer

Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks

Focal Modulation Networks

Multi-Scale Vision Longformer: A New Vision Transformer for High-Resolution Image Encoding

GLIPv2: Unifying Localization and Vision-Language Understanding

Rewrite the Stars

Generalized Decoding for Pixel, Image, and Language

BEVT: BERT Pretraining of Video Transformers

Dynamic ReLU

Masked Video Distillation: Rethinking Masked Feature Modeling for Self-Supervised Video Representation Learning

MicroNet: Improving Image Recognition With Extremely Low FLOPs

Reduce Information Loss in Transformers for Pluralistic Image Inpainting

Stronger NAS with Weaker Predictors

Look Before You Match: Instance Understanding Matters in Video Object Segmentation

Visual Clues: Bridging Vision and Language Foundations for Image Paragraph Captioning

Detection Hub: Unifying Object Detection Datasets via Query Adaptation on Language Embedding

DA-NAS: Data Adapted Pruning for Efficient Neural Architecture Search

Learning from Rich Semantics and Coarse Locations for Long-tailed Object Detection

Should All Proposals Be Treated Equally in Object Detection?

Exploring Invariance in Images through One-way Wave Equations

Dynamic DETR: End-to-End Object Detection With Dynamic Attention

Focal Attention for Long-Range Interactions in Vision Transformers

METAL: Minimum Effort Temporal Activity Localization in Untrimmed Videos