Yi Zhu

Affiliations

University of Chinese Academy of Sciences

papers

1,821

total citations

papers (23)

CrossCLR: Cross-Modal Contrastive Learning for Multi-Modal Video Representations

ICCV 2021arXiv

152

citations

Towards Geospatial Foundation Models via Continual Pretraining

ICCV 2023arXiv

117

citations

PreDiff: Precipitation Nowcasting with Latent Diffusion Models

NEURIPS 2023arXiv

104

citations

Progressive Coordinate Transforms for Monocular 3D Object Detection

NEURIPS 2021arXiv

citations

CrossNorm and SelfNorm for Generalization Under Distribution Shifts

ICCV 2021arXiv

citations

ADAPT: Vision-Language Navigation With Modality-Aligned Action Prompts

CVPR 2022arXiv

citations

Vision-Dialog Navigation by Exploring Cross-Modal Memory

CVPR 2020arXiv

citations

EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions

CVPR 2025arXiv

citations

Prompt Pre-Training with Twenty-Thousand Classes for Open-Vocabulary Visual Recognition

NEURIPS 2023arXiv

citations

Motion-Excited Sampler: Video Adversarial Attack with Sparked Prior

ECCV 2020arXiv

citations

CoupAlign: Coupling Word-Pixel with Sentence-Mask Alignments for Referring Image Segmentation

NEURIPS 2022arXiv

citations

Motion-Guided Masking for Spatiotemporal Representation Learning

ICCV 2023arXiv

citations

rStar-Coder: Scaling Competitive Code Reasoning with a Large-Scale Verified Dataset

NEURIPS 2025arXiv

citations

Blending Anti-Aliasing into Vision Transformer

NEURIPS 2021arXiv

citations

MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner for Open-World Semantic Segmentation

ICCV 2023arXiv

citations

CAP-Net: A Unified Network for 6D Pose and Size Estimation of Categorical Articulated Parts from a Single RGB-D Image

CVPR 2025arXiv

citations

Self-Motivated Communication Agent for Real-World Vision-Dialog Navigation

ICCV 2021

citations

Learning Canonical F-Correlation Projection for Compact Multiview Representation

CVPR 2022

citations

Domain Consensus Clustering for Universal Domain Adaptation

CVPR 2021

citations

Yi Zhu

Affiliations

papers (23)

Vision-Language Navigation With Self-Supervised Auxiliary Reasoning Tasks

Earthformer: Exploring Space-Time Transformers for Earth System Forecasting

VidTr: Video Transformer Without Convolutions

SOON: Scenario Oriented Object Navigation With Graph-Based Exploration

CrossCLR: Cross-Modal Contrastive Learning for Multi-Modal Video Representations

Towards Geospatial Foundation Models via Continual Pretraining

PreDiff: Precipitation Nowcasting with Latent Diffusion Models

Progressive Coordinate Transforms for Monocular 3D Object Detection

CrossNorm and SelfNorm for Generalization Under Distribution Shifts

ADAPT: Vision-Language Navigation With Modality-Aligned Action Prompts

Vision-Dialog Navigation by Exploring Cross-Modal Memory

EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions

Prompt Pre-Training with Twenty-Thousand Classes for Open-Vocabulary Visual Recognition

Motion-Excited Sampler: Video Adversarial Attack with Sparked Prior

CoupAlign: Coupling Word-Pixel with Sentence-Mask Alignments for Referring Image Segmentation

Motion-Guided Masking for Spatiotemporal Representation Learning

rStar-Coder: Scaling Competitive Code Reasoning with a Large-Scale Verified Dataset

Blending Anti-Aliasing into Vision Transformer

MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner for Open-World Semantic Segmentation

CAP-Net: A Unified Network for 6D Pose and Size Estimation of Categorical Articulated Parts from a Single RGB-D Image

Self-Motivated Communication Agent for Real-World Vision-Dialog Navigation

Learning Canonical F-Correlation Projection for Compact Multiview Representation

Domain Consensus Clustering for Universal Domain Adaptation

papers (23)

Vision-Language Navigation With Self-Supervised Auxiliary Reasoning Tasks

Earthformer: Exploring Space-Time Transformers for Earth System Forecasting

VidTr: Video Transformer Without Convolutions

SOON: Scenario Oriented Object Navigation With Graph-Based Exploration

CrossCLR: Cross-Modal Contrastive Learning for Multi-Modal Video Representations

Towards Geospatial Foundation Models via Continual Pretraining

PreDiff: Precipitation Nowcasting with Latent Diffusion Models

Progressive Coordinate Transforms for Monocular 3D Object Detection

CrossNorm and SelfNorm for Generalization Under Distribution Shifts

ADAPT: Vision-Language Navigation With Modality-Aligned Action Prompts

Vision-Dialog Navigation by Exploring Cross-Modal Memory

EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions

Prompt Pre-Training with Twenty-Thousand Classes for Open-Vocabulary Visual Recognition

Motion-Excited Sampler: Video Adversarial Attack with Sparked Prior

CoupAlign: Coupling Word-Pixel with Sentence-Mask Alignments for Referring Image Segmentation

Motion-Guided Masking for Spatiotemporal Representation Learning

rStar-Coder: Scaling Competitive Code Reasoning with a Large-Scale Verified Dataset

Blending Anti-Aliasing into Vision Transformer

MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner for Open-World Semantic Segmentation

CAP-Net: A Unified Network for 6D Pose and Size Estimation of Categorical Articulated Parts from a Single RGB-D Image

Self-Motivated Communication Agent for Real-World Vision-Dialog Navigation

Learning Canonical F-Correlation Projection for Compact Multiview Representation

Domain Consensus Clustering for Universal Domain Adaptation