Shizhe Chen

papers

1,752

total citations

papers (17)

Fine-Grained Video-Text Retrieval With Hierarchical Graph Reasoning

CVPR 2020arXiv

361

citations

History Aware Multimodal Transformer for Vision-and-Language Navigation

NEURIPS 2021arXiv

317

citations

Say As You Wish: Fine-Grained Control of Image Caption Generation With Abstract Scene Graphs

CVPR 2020arXiv

242

citations

Think Global, Act Local: Dual-Scale Graph Transformer for Vision-and-Language Navigation

CVPR 2022arXiv

213

citations

gSDF: Geometry-Driven Signed Distance Functions for 3D Hand-Object Reconstruction

CVPR 2023arXiv

citations

Towards Diverse Paragraph Captioning for Untrimmed Videos

CVPR 2021arXiv

citations

SUGAR: Pre-training 3D Visual Representations for Robotics

CVPR 2024arXiv

citations

NextBestPath: Efficient 3D Mapping of Unseen Environments

ICLR 2025arXiv

citations

HORT: Monocular Hand-held Objects Reconstruction with Transformers

ICCV 2025arXiv

citations

Explore and Tell: Embodied Visual Captioning in 3D Environments

ICCV 2023arXiv

citations

Few-Shot Action Recognition with Hierarchical Matching and Contrastive Learning

ECCV 2022

citations

VRDFormer: End-to-End Video Visual Relation Detection With Transformers

CVPR 2022

citations

Sketch, Ground, and Refine: Top-Down Dense Video Captioning

CVPR 2021

citations

Shizhe Chen

papers (17)

Fine-Grained Video-Text Retrieval With Hierarchical Graph Reasoning

History Aware Multimodal Transformer for Vision-and-Language Navigation

Say As You Wish: Fine-Grained Control of Image Caption Generation With Abstract Scene Graphs

Think Global, Act Local: Dual-Scale Graph Transformer for Vision-and-Language Navigation

Airbert: In-Domain Pretraining for Vision-and-Language Navigation

Language Conditioned Spatial Relation Reasoning for 3D Object Grounding

Elaborative Rehearsal for Zero-Shot Action Recognition

Learning from Unlabeled 3D Environments for Vision-and-Language Navigation

gSDF: Geometry-Driven Signed Distance Functions for 3D Hand-Object Reconstruction

Towards Diverse Paragraph Captioning for Untrimmed Videos

SUGAR: Pre-training 3D Visual Representations for Robotics

NextBestPath: Efficient 3D Mapping of Unseen Environments

HORT: Monocular Hand-held Objects Reconstruction with Transformers

Explore and Tell: Embodied Visual Captioning in 3D Environments

Few-Shot Action Recognition with Hierarchical Matching and Contrastive Learning

VRDFormer: End-to-End Video Visual Relation Detection With Transformers

Sketch, Ground, and Refine: Top-Down Dense Video Captioning

papers (17)

Fine-Grained Video-Text Retrieval With Hierarchical Graph Reasoning

History Aware Multimodal Transformer for Vision-and-Language Navigation

Say As You Wish: Fine-Grained Control of Image Caption Generation With Abstract Scene Graphs

Think Global, Act Local: Dual-Scale Graph Transformer for Vision-and-Language Navigation

Airbert: In-Domain Pretraining for Vision-and-Language Navigation

Language Conditioned Spatial Relation Reasoning for 3D Object Grounding

Elaborative Rehearsal for Zero-Shot Action Recognition

Learning from Unlabeled 3D Environments for Vision-and-Language Navigation

gSDF: Geometry-Driven Signed Distance Functions for 3D Hand-Object Reconstruction

Towards Diverse Paragraph Captioning for Untrimmed Videos

SUGAR: Pre-training 3D Visual Representations for Robotics

NextBestPath: Efficient 3D Mapping of Unseen Environments

HORT: Monocular Hand-held Objects Reconstruction with Transformers

Explore and Tell: Embodied Visual Captioning in 3D Environments

Few-Shot Action Recognition with Hierarchical Matching and Contrastive Learning

VRDFormer: End-to-End Video Visual Relation Detection With Transformers

Sketch, Ground, and Refine: Top-Down Dense Video Captioning