Ming Ding

Google Scholar OpenReview

h-index

papers

4,523

total citations

papers (12)

CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer

ICLR 2025arXiv

1,409

citations

CogView: Mastering Text-to-Image Generation via Transformers

NEURIPS 2021arXiv

934

citations

ImageReward: Learning and Evaluating Human Preferences for Text-to-Image Generation

NEURIPS 2023arXiv

803

citations

CogAgent: A Visual Language Model for GUI Agents

CVPR 2024arXiv

629

citations

CogView2: Faster and Better Text-to-Image Generation via Hierarchical Transformers

NEURIPS 2022arXiv

402

citations

Inf-DiT: Upsampling any-resolution image with memory-efficient diffusion transformer.

ECCV 2024arXiv

citations

UFC-BERT: Unifying Multi-Modal Controls for Conditional Image Synthesis

NEURIPS 2021

citations

Adaptive Diffusion in Graph Neural Networks

NEURIPS 2021

citations

CogLTX: Applying BERT to Long Texts

NEURIPS 2020

citations

Ming Ding

papers (12)

CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer

CogView: Mastering Text-to-Image Generation via Transformers

ImageReward: Learning and Evaluating Human Preferences for Text-to-Image Generation

CogAgent: A Visual Language Model for GUI Agents

CogView2: Faster and Better Text-to-Image Generation via Hierarchical Transformers

LVBench: An Extreme Long Video Understanding Benchmark

VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents

CogCoM: A Visual Language Model with Chain-of-Manipulations Reasoning

Inf-DiT: Upsampling any-resolution image with memory-efficient diffusion transformer.

UFC-BERT: Unifying Multi-Modal Controls for Conditional Image Synthesis

Adaptive Diffusion in Graph Neural Networks

CogLTX: Applying BERT to Long Texts

papers (12)

CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer

CogView: Mastering Text-to-Image Generation via Transformers

ImageReward: Learning and Evaluating Human Preferences for Text-to-Image Generation

CogAgent: A Visual Language Model for GUI Agents

CogView2: Faster and Better Text-to-Image Generation via Hierarchical Transformers

LVBench: An Extreme Long Video Understanding Benchmark

VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents

CogCoM: A Visual Language Model with Chain-of-Manipulations Reasoning

Inf-DiT: Upsampling any-resolution image with memory-efficient diffusion transformer.

UFC-BERT: Unifying Multi-Modal Controls for Conditional Image Synthesis

Adaptive Diffusion in Graph Neural Networks

CogLTX: Applying BERT to Long Texts