Pengchuan Zhang

papers

6,872

total citations

papers (20)

Multi-Scale Vision Longformer: A New Vision Transformer for High-Resolution Image Encoding

ICCV 2021arXiv

374

citations

GLIPv2: Unifying Localization and Vision-Language Understanding

NEURIPS 2022arXiv

357

citations

Unified Contrastive Learning in Image-Text-Label Space

CVPR 2022arXiv

276

citations

UniVTG: Towards Unified Video-Language Temporal Grounding

ICCV 2023arXiv

195

citations

ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented Visual Models

NEURIPS 2022arXiv

178

citations

VinVL: Revisiting Visual Representations in Vision-Language Models

CVPR 2021arXiv

169

citations

Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone

NEURIPS 2022arXiv

153

citations

EgoVLPv2: Egocentric Video-Language Pre-training with Fusion in the Backbone

ICCV 2023arXiv

138

citations

K-LITE: Learning Transferable Visual Models with External Knowledge

NEURIPS 2022arXiv

citations

3DB: A Framework for Debugging Computer Vision Models

NEURIPS 2022arXiv

citations

Revisiting the Role of Language Priors in Vision-Language Models

ICML 2024arXiv

citations

Detection Hub: Unifying Object Detection Datasets via Query Adaptation on Language Embedding

CVPR 2023arXiv

citations

BEHAVIOR Vision Suite: Customizable Dataset Generation via Simulation

CVPR 2024arXiv

citations

DIME-FM : DIstilling Multimodal and Efficient Foundation Models

ICCV 2023

citations

Dynamic DETR: End-to-End Object Detection With Dynamic Attention

ICCV 2021

citations

Focal Attention for Long-Range Interactions in Vision Transformers

NEURIPS 2021

citations

Pengchuan Zhang

papers (20)

Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks

Grounded Language-Image Pre-Training

RegionCLIP: Region-Based Language-Image Pretraining

An Empirical Study of Training End-to-End Vision-and-Language Transformers

Multi-Scale Vision Longformer: A New Vision Transformer for High-Resolution Image Encoding

GLIPv2: Unifying Localization and Vision-Language Understanding

Unified Contrastive Learning in Image-Text-Label Space

UniVTG: Towards Unified Video-Language Temporal Grounding

ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented Visual Models

VinVL: Revisiting Visual Representations in Vision-Language Models

Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone

EgoVLPv2: Egocentric Video-Language Pre-training with Fusion in the Backbone

K-LITE: Learning Transferable Visual Models with External Knowledge

3DB: A Framework for Debugging Computer Vision Models

Revisiting the Role of Language Priors in Vision-Language Models

Detection Hub: Unifying Object Detection Datasets via Query Adaptation on Language Embedding

BEHAVIOR Vision Suite: Customizable Dataset Generation via Simulation

DIME-FM : DIstilling Multimodal and Efficient Foundation Models

Dynamic DETR: End-to-End Object Detection With Dynamic Attention

Focal Attention for Long-Range Interactions in Vision Transformers

papers (20)

Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks

Grounded Language-Image Pre-Training

RegionCLIP: Region-Based Language-Image Pretraining

An Empirical Study of Training End-to-End Vision-and-Language Transformers

Multi-Scale Vision Longformer: A New Vision Transformer for High-Resolution Image Encoding

GLIPv2: Unifying Localization and Vision-Language Understanding

Unified Contrastive Learning in Image-Text-Label Space

UniVTG: Towards Unified Video-Language Temporal Grounding

ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented Visual Models

VinVL: Revisiting Visual Representations in Vision-Language Models

Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone

EgoVLPv2: Egocentric Video-Language Pre-training with Fusion in the Backbone

K-LITE: Learning Transferable Visual Models with External Knowledge

3DB: A Framework for Debugging Computer Vision Models

Revisiting the Role of Language Priors in Vision-Language Models

Detection Hub: Unifying Object Detection Datasets via Query Adaptation on Language Embedding

BEHAVIOR Vision Suite: Customizable Dataset Generation via Simulation

DIME-FM : DIstilling Multimodal and Efficient Foundation Models

Dynamic DETR: End-to-End Object Detection With Dynamic Attention

Focal Attention for Long-Range Interactions in Vision Transformers