Mingyu Ding

Affiliations

The University of Hong Kong

papers

2,259

total citations

papers (27)

Dynamic Visual Reasoning by Learning Differentiable Physics Models from Video and Language

NEURIPS 2021arXiv

citations

HR-NAS: Searching Efficient High-Resolution Neural Architectures With Lightweight Transformers

CVPR 2021arXiv

citations

SkillDiffuser: Interpretable Hierarchical Planning via Skill Abstractions in Diffusion-Based Task Execution

CVPR 2024arXiv

citations

RoboTwin: Dual-Arm Robot Benchmark with Generative Digital Twins

CVPR 2025arXiv

citations

UniAdapter: Unified Parameter-Efficient Transfer Learning for Cross-modal Modeling

ICLR 2024arXiv

citations

RoboCodeX: Multimodal Code Generation for Robotic Behavior Synthesis

ICML 2024arXiv

citations

Physion++: Evaluating Physical Scene Understanding that Requires Online Inference of Different Physical Properties

NEURIPS 2023arXiv

citations

TextPSG: Panoptic Scene Graph Generation from Textual Descriptions

ICCV 2023arXiv

citations

Moto: Latent Motion Token as the Bridging Language for Learning Robot Manipulation from Videos

ICCV 2025arXiv

citations

Visual Dependency Transformers: Dependency Tree Emerges From Reversed Attention

CVPR 2023arXiv

citations

LGDN: Language-Guided Denoising Network for Video-Language Modeling

NEURIPS 2022arXiv

citations

Mod-Squad: Designing Mixtures of Experts As Modular Multi-Task Learners

CVPR 2023arXiv

citations

DexHandDiff: Interaction-aware Diffusion Planning for Adaptive Dexterous Manipulation

CVPR 2025arXiv

citations

Towards Free Data Selection with General-Purpose Models

NEURIPS 2023arXiv

citations

CompGS: Unleashing 2D Compositionality for Compositional Text-to-3D via Dynamically Optimizing 3D Gaussians

CVPR 2025arXiv

citations

X-Drive: Cross-modality Consistent Multi-Sensor Data Synthesis for Driving Scenarios

ICLR 2025arXiv

citations

EC2: Emergent Communication for Embodied Control

CVPR 2023

citations

L2M-GAN: Learning To Manipulate Latent Space Semantics for Facial Attribute Editing

CVPR 2021

citations

Doubly-Robust Self-Training

NEURIPS 2023

citations

Compressed Video Contrastive Learning

NEURIPS 2021

citations

Mingyu Ding

Affiliations

papers (27)

EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought

Learning Depth-Guided Convolutions for Monocular 3D Object Detection

DaViT: Dual Attention Vision Transformers

Segmenting Transparent Objects in the Wild

Dense Hybrid Recurrent Multi-view Stereo Net with Dynamic Consistency Checking

Pyramid Multi-view Stereo Net with Self-adaptive View Aggregation

VDT: General-purpose Video Diffusion Transformers via Mask Modeling

Dynamic Visual Reasoning by Learning Differentiable Physics Models from Video and Language

HR-NAS: Searching Efficient High-Resolution Neural Architectures With Lightweight Transformers

SkillDiffuser: Interpretable Hierarchical Planning via Skill Abstractions in Diffusion-Based Task Execution

RoboTwin: Dual-Arm Robot Benchmark with Generative Digital Twins

UniAdapter: Unified Parameter-Efficient Transfer Learning for Cross-modal Modeling

RoboCodeX: Multimodal Code Generation for Robotic Behavior Synthesis

Physion++: Evaluating Physical Scene Understanding that Requires Online Inference of Different Physical Properties

TextPSG: Panoptic Scene Graph Generation from Textual Descriptions

Moto: Latent Motion Token as the Bridging Language for Learning Robot Manipulation from Videos

Visual Dependency Transformers: Dependency Tree Emerges From Reversed Attention

LGDN: Language-Guided Denoising Network for Video-Language Modeling

Mod-Squad: Designing Mixtures of Experts As Modular Multi-Task Learners

DexHandDiff: Interaction-aware Diffusion Planning for Adaptive Dexterous Manipulation

Towards Free Data Selection with General-Purpose Models

CompGS: Unleashing 2D Compositionality for Compositional Text-to-3D via Dynamically Optimizing 3D Gaussians

X-Drive: Cross-modality Consistent Multi-Sensor Data Synthesis for Driving Scenarios

EC2: Emergent Communication for Embodied Control

L2M-GAN: Learning To Manipulate Latent Space Semantics for Facial Attribute Editing

Doubly-Robust Self-Training

Compressed Video Contrastive Learning

papers (27)

EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought

Learning Depth-Guided Convolutions for Monocular 3D Object Detection

DaViT: Dual Attention Vision Transformers

Segmenting Transparent Objects in the Wild

Dense Hybrid Recurrent Multi-view Stereo Net with Dynamic Consistency Checking

Pyramid Multi-view Stereo Net with Self-adaptive View Aggregation

VDT: General-purpose Video Diffusion Transformers via Mask Modeling

Dynamic Visual Reasoning by Learning Differentiable Physics Models from Video and Language

HR-NAS: Searching Efficient High-Resolution Neural Architectures With Lightweight Transformers

SkillDiffuser: Interpretable Hierarchical Planning via Skill Abstractions in Diffusion-Based Task Execution

RoboTwin: Dual-Arm Robot Benchmark with Generative Digital Twins

UniAdapter: Unified Parameter-Efficient Transfer Learning for Cross-modal Modeling

RoboCodeX: Multimodal Code Generation for Robotic Behavior Synthesis

Physion++: Evaluating Physical Scene Understanding that Requires Online Inference of Different Physical Properties

TextPSG: Panoptic Scene Graph Generation from Textual Descriptions

Moto: Latent Motion Token as the Bridging Language for Learning Robot Manipulation from Videos

Visual Dependency Transformers: Dependency Tree Emerges From Reversed Attention

LGDN: Language-Guided Denoising Network for Video-Language Modeling

Mod-Squad: Designing Mixtures of Experts As Modular Multi-Task Learners

DexHandDiff: Interaction-aware Diffusion Planning for Adaptive Dexterous Manipulation

Towards Free Data Selection with General-Purpose Models

CompGS: Unleashing 2D Compositionality for Compositional Text-to-3D via Dynamically Optimizing 3D Gaussians

X-Drive: Cross-modality Consistent Multi-Sensor Data Synthesis for Driving Scenarios

EC2: Emergent Communication for Embodied Control

L2M-GAN: Learning To Manipulate Latent Space Semantics for Facial Attribute Editing

Doubly-Robust Self-Training

Compressed Video Contrastive Learning