Yuankai Qi

papers

1,387

total citations

papers (24)

REVERIE: Remote Embodied Visual Referring Expression in Real Indoor Environments

CVPR 2020arXiv

433

citations

Language and Visual Entity Relationship Graph for Agent Navigation

NEURIPS 2020arXiv

149

citations

Object-and-Action Aware Model for Visual Language Navigation

ECCV 2020arXiv

128

citations

Exploiting Completeness and Uncertainty of Pseudo Labels for Weakly Supervised Video Anomaly Detection

CVPR 2023arXiv

102

citations

The Road To Know-Where: An Object-and-Room Informed Sequential BERT for Indoor Vision-Language Navigation

ICCV 2021arXiv

citations

March in Chat: Interactive Prompting for Remote Embodied Referring Expression

ICCV 2023arXiv

citations

Learning To Dub Movies via Hierarchical Prosody Models

CVPR 2023arXiv

citations

V2C: Visual Voice Cloning

CVPR 2022arXiv

citations

Decomposing Disease Descriptions for Enhanced Pathology Detection: A Multi-Aspect Vision-Language Pre-training Framework

CVPR 2024arXiv

citations

Augmented Commonsense Knowledge for Remote Object Grounding

AAAI 2024arXiv

citations

EmoDubber: Towards High Quality and Emotion Controllable Movie Dubbing

CVPR 2025arXiv

citations

Generating Content for HDR Deghosting from Frequency View

CVPR 2024arXiv

citations

Prosody-Enhanced Acoustic Pre-training and Acoustic-Disentangled Prosody Adapting for Movie Dubbing

CVPR 2025arXiv

citations

Seeing the Trees for the Forest: Rethinking Weakly-Supervised Medical Visual Grounding

ICCV 2025arXiv

citations

Separation of Powers: On Segregating Knowledge from Observation in LLM-enabled Knowledge-based Visual Question Answering

CVPR 2025

citations

Incomplete Multi-View Multi-Label Classification via Diffusion-Guided Redundancy Removal

AAAI 2025

citations

Medusa: A Multi-Scale High-order Contrastive Dual-Diffusion Approach for Multi-View Clustering

CVPR 2025

citations

Visual and Semantic Prompt Collaboration for Generalized Zero-Shot Learning

CVPR 2025arXiv

citations

Weakly Supervised Video Individual Counting

CVPR 2024

citations

VLN BERT: A Recurrent Vision-and-Language BERT for Navigation

CVPR 2021

citations

Generating Synthetic Data for Unsupervised Federated Learning of Cross-Modal Retrieval

AAAI 2025

citations

Yuankai Qi

papers (24)

REVERIE: Remote Embodied Visual Referring Expression in Real Indoor Environments

Language and Visual Entity Relationship Graph for Agent Navigation

Object-and-Action Aware Model for Visual Language Navigation

Exploiting Completeness and Uncertainty of Pseudo Labels for Weakly Supervised Video Anomaly Detection

AerialVLN: Vision-and-Language Navigation for UAVs

HOP: History-and-Order Aware Pre-Training for Vision-and-Language Navigation

Hierarchical Modular Network for Video Captioning

The Road To Know-Where: An Object-and-Room Informed Sequential BERT for Indoor Vision-Language Navigation

March in Chat: Interactive Prompting for Remote Embodied Referring Expression

Learning To Dub Movies via Hierarchical Prosody Models

V2C: Visual Voice Cloning

Decomposing Disease Descriptions for Enhanced Pathology Detection: A Multi-Aspect Vision-Language Pre-training Framework

Augmented Commonsense Knowledge for Remote Object Grounding

EmoDubber: Towards High Quality and Emotion Controllable Movie Dubbing

Generating Content for HDR Deghosting from Frequency View

Prosody-Enhanced Acoustic Pre-training and Acoustic-Disentangled Prosody Adapting for Movie Dubbing

Seeing the Trees for the Forest: Rethinking Weakly-Supervised Medical Visual Grounding

Separation of Powers: On Segregating Knowledge from Observation in LLM-enabled Knowledge-based Visual Question Answering

Incomplete Multi-View Multi-Label Classification via Diffusion-Guided Redundancy Removal

Medusa: A Multi-Scale High-order Contrastive Dual-Diffusion Approach for Multi-View Clustering

Visual and Semantic Prompt Collaboration for Generalized Zero-Shot Learning

Weakly Supervised Video Individual Counting

VLN BERT: A Recurrent Vision-and-Language BERT for Navigation

Generating Synthetic Data for Unsupervised Federated Learning of Cross-Modal Retrieval

papers (24)

REVERIE: Remote Embodied Visual Referring Expression in Real Indoor Environments

Language and Visual Entity Relationship Graph for Agent Navigation

Object-and-Action Aware Model for Visual Language Navigation

Exploiting Completeness and Uncertainty of Pseudo Labels for Weakly Supervised Video Anomaly Detection

AerialVLN: Vision-and-Language Navigation for UAVs

HOP: History-and-Order Aware Pre-Training for Vision-and-Language Navigation

Hierarchical Modular Network for Video Captioning

The Road To Know-Where: An Object-and-Room Informed Sequential BERT for Indoor Vision-Language Navigation

March in Chat: Interactive Prompting for Remote Embodied Referring Expression

Learning To Dub Movies via Hierarchical Prosody Models

V2C: Visual Voice Cloning

Decomposing Disease Descriptions for Enhanced Pathology Detection: A Multi-Aspect Vision-Language Pre-training Framework

Augmented Commonsense Knowledge for Remote Object Grounding

EmoDubber: Towards High Quality and Emotion Controllable Movie Dubbing

Generating Content for HDR Deghosting from Frequency View

Prosody-Enhanced Acoustic Pre-training and Acoustic-Disentangled Prosody Adapting for Movie Dubbing

Seeing the Trees for the Forest: Rethinking Weakly-Supervised Medical Visual Grounding

Separation of Powers: On Segregating Knowledge from Observation in LLM-enabled Knowledge-based Visual Question Answering

Incomplete Multi-View Multi-Label Classification via Diffusion-Guided Redundancy Removal

Medusa: A Multi-Scale High-order Contrastive Dual-Diffusion Approach for Multi-View Clustering

Visual and Semantic Prompt Collaboration for Generalized Zero-Shot Learning

Weakly Supervised Video Individual Counting

VLN BERT: A Recurrent Vision-and-Language BERT for Navigation

Generating Synthetic Data for Unsupervised Federated Learning of Cross-Modal Retrieval