Enze Xie

papers

16,599

total citations

papers (28)

SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers

NEURIPS 2021arXiv

7,284

citations

Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction Without Convolutions

ICCV 2021arXiv

4,656

citations

BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers

ECCV 2022arXiv

1,720

citations

PolarMask: Single Shot Instance Segmentation With Polar Representation

CVPR 2020arXiv

606

citations

DetCo: Unsupervised Contrastive Learning for Object Detection

ICCV 2021arXiv

355

citations

PixArt-Sigma: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation

ECCV 2024

223

citations

DiffFit: Unlocking Transferability of Large Diffusion Models via Simple Parameter-efficient Fine-Tuning

ICCV 2023arXiv

citations

Beyond One-to-One: Rethinking the Referring Image Segmentation

ICCV 2023arXiv

citations

Accelerating Diffusion Sampling with Optimized Time Steps

CVPR 2024arXiv

citations

Flow-Based Feature Fusion for Vehicle-Infrastructure Cooperative 3D Object Detection

NEURIPS 2023arXiv

citations

DiffComplete: Diffusion-based Generative 3D Shape Completion

NEURIPS 2023arXiv

citations

SANA-Sprint: One-Step Diffusion with Continuous-Time Consistency Distillation

ICCV 2025arXiv

citations

AE TextSpotter: Learning Visual and Linguistic Representation for Ambiguous Text Spotting

ECCV 2020arXiv

citations

DC-AE 1.5: Accelerating Diffusion Model Convergence with Structured Latent Space

ICCV 2025arXiv

citations

Parametric Depth Based Feature Representation Learning for Object Detection and Segmentation in Bird's-Eye View

ICCV 2023arXiv

citations

Fast Training of Diffusion Transformer with Extreme Masking for 3D Point Clouds Generation

ECCV 2024arXiv

citations

DC-AR: Efficient Masked Autoregressive Image Generation with Deep Compression Hybrid Tokenizer

ICCV 2025arXiv

citations

MetaBEV: Solving Sensor Failures for 3D Detection and Map Segmentation

ICCV 2023

citations

Watch Only Once: An End-to-End Video Action Detection Framework

ICCV 2021

citations

T2I-CompBench: A Comprehensive Benchmark for Open-world Compositional Text-to-image Generation

NEURIPS 2023

citations

Enze Xie

papers (28)

SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers

Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction Without Convolutions

BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers

PolarMask: Single Shot Instance Segmentation With Polar Representation

DetCo: Unsupervised Contrastive Learning for Object Detection

PixArt-Sigma: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation

MagicDrive: Street View Generation with Diverse 3D Geometry Control

Segmenting Transparent Objects in the Wild

DDP: Diffusion Model for Dense Visual Prediction

Panoptic SegFormer: Delving Deeper Into Panoptic Segmentation With Transformers

Scene Text Image Super-resolution in the wild

Differentiable Hierarchical Graph Grouping for Multi-Person Pose Estimation

DiT-3D: Exploring Plain Diffusion Transformers for 3D Shape Generation

LEGO-Prover: Neural Theorem Proving with Growing Libraries

DiffFit: Unlocking Transferability of Large Diffusion Models via Simple Parameter-efficient Fine-Tuning

Beyond One-to-One: Rethinking the Referring Image Segmentation

Accelerating Diffusion Sampling with Optimized Time Steps

Flow-Based Feature Fusion for Vehicle-Infrastructure Cooperative 3D Object Detection

DiffComplete: Diffusion-based Generative 3D Shape Completion

SANA-Sprint: One-Step Diffusion with Continuous-Time Consistency Distillation

AE TextSpotter: Learning Visual and Linguistic Representation for Ambiguous Text Spotting

DC-AE 1.5: Accelerating Diffusion Model Convergence with Structured Latent Space

Parametric Depth Based Feature Representation Learning for Object Detection and Segmentation in Bird's-Eye View

Fast Training of Diffusion Transformer with Extreme Masking for 3D Point Clouds Generation

DC-AR: Efficient Masked Autoregressive Image Generation with Deep Compression Hybrid Tokenizer

MetaBEV: Solving Sensor Failures for 3D Detection and Map Segmentation

Watch Only Once: An End-to-End Video Action Detection Framework

T2I-CompBench: A Comprehensive Benchmark for Open-world Compositional Text-to-image Generation

papers (28)

SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers

Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction Without Convolutions

BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers

PolarMask: Single Shot Instance Segmentation With Polar Representation

DetCo: Unsupervised Contrastive Learning for Object Detection

PixArt-Sigma: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation

MagicDrive: Street View Generation with Diverse 3D Geometry Control

Segmenting Transparent Objects in the Wild

DDP: Diffusion Model for Dense Visual Prediction

Panoptic SegFormer: Delving Deeper Into Panoptic Segmentation With Transformers

Scene Text Image Super-resolution in the wild

Differentiable Hierarchical Graph Grouping for Multi-Person Pose Estimation

DiT-3D: Exploring Plain Diffusion Transformers for 3D Shape Generation

LEGO-Prover: Neural Theorem Proving with Growing Libraries

DiffFit: Unlocking Transferability of Large Diffusion Models via Simple Parameter-efficient Fine-Tuning

Beyond One-to-One: Rethinking the Referring Image Segmentation

Accelerating Diffusion Sampling with Optimized Time Steps

Flow-Based Feature Fusion for Vehicle-Infrastructure Cooperative 3D Object Detection

DiffComplete: Diffusion-based Generative 3D Shape Completion

SANA-Sprint: One-Step Diffusion with Continuous-Time Consistency Distillation

AE TextSpotter: Learning Visual and Linguistic Representation for Ambiguous Text Spotting

DC-AE 1.5: Accelerating Diffusion Model Convergence with Structured Latent Space

Parametric Depth Based Feature Representation Learning for Object Detection and Segmentation in Bird's-Eye View

Fast Training of Diffusion Transformer with Extreme Masking for 3D Point Clouds Generation

DC-AR: Efficient Masked Autoregressive Image Generation with Deep Compression Hybrid Tokenizer

MetaBEV: Solving Sensor Failures for 3D Detection and Map Segmentation

Watch Only Once: An End-to-End Video Action Detection Framework

T2I-CompBench: A Comprehensive Benchmark for Open-world Compositional Text-to-image Generation