Dit-Yan Yeung

Affiliations

Hong Kong University of Science and Technology

papers

1,231

total citations

papers (21)

Earthformer: Exploring Space-Time Transformers for Earth System Forecasting

NEURIPS 2022arXiv

259

citations

MagicDrive: Street View Generation with Diverse 3D Geometry Control

ICLR 2024arXiv

218

citations

CODA: A Real-World Road Corner Case Dataset for Object Detection in Autonomous Driving

ECCV 2022arXiv

135

citations

RoboDreamer: Learning Compositional World Models for Robot Imagination

ICML 2024arXiv

107

citations

Gaussian Shell Maps for Efficient 3D Human Generation

CVPR 2024arXiv

citations

MultiSiam: Self-Supervised Multi-Instance Siamese Representation Learning for Autonomous Driving

ICCV 2021arXiv

citations

Mixed Autoencoder for Self-Supervised Visual Representation Learning

CVPR 2023arXiv

citations

EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions

CVPR 2025arXiv

citations

Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake Analysis

ICLR 2024arXiv

citations

DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception

CVPR 2024arXiv

citations

G-VEval: A Versatile Metric for Evaluating Image and Video Captions Using GPT-4o

AAAI 2025arXiv

citations

Learning 3D Persistent Embodied World Models

NEURIPS 2025arXiv

citations

Anyattack: Towards Large-scale Self-supervised Adversarial Attacks on Vision-language Models

CVPR 2025arXiv

citations

SVQNet: Sparse Voxel-Adjacent Query Network for 4D Spatio-Temporal LiDAR Semantic Segmentation

ICCV 2023arXiv

citations

Learning High-resolution Vector Representation from Multi-Camera Images for 3D Object Detection

ECCV 2024arXiv

citations

CLIP2: Contrastive Language-Image-Point Pretraining From Real-World Point Cloud Data

CVPR 2023

citations

Dit-Yan Yeung

Affiliations

papers (21)

Earthformer: Exploring Space-Time Transformers for Earth System Forecasting

MagicDrive: Street View Generation with Diverse 3D Geometry Control

CODA: A Real-World Road Corner Case Dataset for Object Detection in Autonomous Driving

RoboDreamer: Learning Compositional World Models for Robot Imagination

Gaussian Shell Maps for Efficient 3D Human Generation

MultiSiam: Self-Supervised Multi-Instance Siamese Representation Learning for Autonomous Driving

Mixed Autoencoder for Self-Supervised Visual Representation Learning

EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions

Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake Analysis

DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception

3D-Aware Indoor Scene Synthesis with Depth Priors

Adaptive Online Replanning with Diffusion Models

Learning 3D-Aware Image Synthesis With Unknown Pose Distribution

Improving 3D-aware Image Synthesis with A Geometry-aware Discriminator

Implicit Concept Removal of Diffusion Models

G-VEval: A Versatile Metric for Evaluating Image and Video Captions Using GPT-4o

Learning 3D Persistent Embodied World Models

Anyattack: Towards Large-scale Self-supervised Adversarial Attacks on Vision-language Models

SVQNet: Sparse Voxel-Adjacent Query Network for 4D Spatio-Temporal LiDAR Semantic Segmentation

Learning High-resolution Vector Representation from Multi-Camera Images for 3D Object Detection

CLIP2: Contrastive Language-Image-Point Pretraining From Real-World Point Cloud Data

papers (21)

Earthformer: Exploring Space-Time Transformers for Earth System Forecasting

MagicDrive: Street View Generation with Diverse 3D Geometry Control

CODA: A Real-World Road Corner Case Dataset for Object Detection in Autonomous Driving

RoboDreamer: Learning Compositional World Models for Robot Imagination

Gaussian Shell Maps for Efficient 3D Human Generation

MultiSiam: Self-Supervised Multi-Instance Siamese Representation Learning for Autonomous Driving

Mixed Autoencoder for Self-Supervised Visual Representation Learning

EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions

Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake Analysis

DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception

3D-Aware Indoor Scene Synthesis with Depth Priors

Adaptive Online Replanning with Diffusion Models

Learning 3D-Aware Image Synthesis With Unknown Pose Distribution

Improving 3D-aware Image Synthesis with A Geometry-aware Discriminator

Implicit Concept Removal of Diffusion Models

G-VEval: A Versatile Metric for Evaluating Image and Video Captions Using GPT-4o

Learning 3D Persistent Embodied World Models

Anyattack: Towards Large-scale Self-supervised Adversarial Attacks on Vision-language Models

SVQNet: Sparse Voxel-Adjacent Query Network for 4D Spatio-Temporal LiDAR Semantic Segmentation

Learning High-resolution Vector Representation from Multi-Camera Images for 3D Object Detection

CLIP2: Contrastive Language-Image-Point Pretraining From Real-World Point Cloud Data