Zhengyuan Yang

papers

3,616

total citations

papers (29)

Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark

ICML 2025arXiv

100

citations

Improving Weakly Supervised Visual Grounding by Contrastive Knowledge Distillation

CVPR 2021arXiv

citations

Equivariant Similarity for Vision-Language Foundation Models

ICCV 2023arXiv

citations

Training Diffusion Models Towards Diverse Image Generation with Reinforcement Learning

CVPR 2024

citations

MM-Narrator: Narrating Long-form Videos with Multimodal In-Context Learning

CVPR 2024arXiv

citations

ReFocus: Visual Editing as a Chain of Thought for Structured Image Understanding

ICML 2025arXiv

citations

MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos

ICLR 2025arXiv

citations

SGFormer: Semantic Graph Transformer for Point Cloud-Based 3D Scene Graph Generation

AAAI 2024arXiv

citations

ImageGen-CoT: Enhancing Text-to-Image In-context Learning with Chain-of-Thought Reasoning

ICCV 2025arXiv

citations

SlowFast-VGen: Slow-Fast Learning for Action-Driven Long Video Generation

ICLR 2025arXiv

citations

Scaling Inference-Time Search with Vision Value Model for Improved Visual Comprehension

ICCV 2025arXiv

citations

Tuning Timestep-Distilled Diffusion Model Using Pairwise Sample Optimization

ICLR 2025arXiv

citations

MMSum: A Dataset for Multimodal Summarization and Thumbnail Generation of Videos

CVPR 2024arXiv

citations

Point-RFT: Improving Multimodal Reasoning with Visually Grounded Reinforcement Finetuning

NEURIPS 2025arXiv

citations

IDOL: Unified Dual-Modal Latent Diffusion for Human-Centric Joint Video-Depth Generation

ECCV 2024arXiv

citations

SITE: towards Spatial Intelligence Thorough Evaluation

ICCV 2025arXiv

citations

LiVOS: Light Video Object Segmentation with Gated Linear Matching

CVPR 2025arXiv

citations

StrokeNUWA—Tokenizing Strokes for Vector Graphic Synthesis

ICML 2024

citations

PromptCap: Prompt-Guided Image Captioning for VQA with GPT-3

ICCV 2023

citations

Zhengyuan Yang

papers (29)

MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities

TransVG: End-to-End Visual Grounding With Transformers

Scaling Up Vision-Language Pre-Training for Image Captioning

Improving One-stage Visual Grounding by Recursive Sub-query Construction

ReCo: Region-Controlled Text-to-Image Generation

TAP: Text-Aware Pre-Training for Text-VQA and Text-Caption

SAT: 2D Semantics Assisted Training for 3D Visual Grounding

DisCo: Disentangled Control for Realistic Human Dance Generation

UniTAB: Unifying Text and Box Outputs for Grounded Vision-Language Modeling

ShowUI: One Vision-Language-Action Model for GUI Visual Agent

Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark

Improving Weakly Supervised Visual Grounding by Contrastive Knowledge Distillation

Equivariant Similarity for Vision-Language Foundation Models

Training Diffusion Models Towards Diverse Image Generation with Reinforcement Learning

MM-Narrator: Narrating Long-form Videos with Multimodal In-Context Learning

ReFocus: Visual Editing as a Chain of Thought for Structured Image Understanding

MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos

SGFormer: Semantic Graph Transformer for Point Cloud-Based 3D Scene Graph Generation

ImageGen-CoT: Enhancing Text-to-Image In-context Learning with Chain-of-Thought Reasoning

SlowFast-VGen: Slow-Fast Learning for Action-Driven Long Video Generation

Scaling Inference-Time Search with Vision Value Model for Improved Visual Comprehension

Tuning Timestep-Distilled Diffusion Model Using Pairwise Sample Optimization

MMSum: A Dataset for Multimodal Summarization and Thumbnail Generation of Videos

Point-RFT: Improving Multimodal Reasoning with Visually Grounded Reinforcement Finetuning

IDOL: Unified Dual-Modal Latent Diffusion for Human-Centric Joint Video-Depth Generation

SITE: towards Spatial Intelligence Thorough Evaluation

LiVOS: Light Video Object Segmentation with Gated Linear Matching

StrokeNUWA—Tokenizing Strokes for Vector Graphic Synthesis

PromptCap: Prompt-Guided Image Captioning for VQA with GPT-3

papers (29)

MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities

TransVG: End-to-End Visual Grounding With Transformers

Scaling Up Vision-Language Pre-Training for Image Captioning

Improving One-stage Visual Grounding by Recursive Sub-query Construction

ReCo: Region-Controlled Text-to-Image Generation

TAP: Text-Aware Pre-Training for Text-VQA and Text-Caption

SAT: 2D Semantics Assisted Training for 3D Visual Grounding

DisCo: Disentangled Control for Realistic Human Dance Generation

UniTAB: Unifying Text and Box Outputs for Grounded Vision-Language Modeling

ShowUI: One Vision-Language-Action Model for GUI Visual Agent

Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark

Improving Weakly Supervised Visual Grounding by Contrastive Knowledge Distillation

Equivariant Similarity for Vision-Language Foundation Models

Training Diffusion Models Towards Diverse Image Generation with Reinforcement Learning

MM-Narrator: Narrating Long-form Videos with Multimodal In-Context Learning

ReFocus: Visual Editing as a Chain of Thought for Structured Image Understanding

MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos

SGFormer: Semantic Graph Transformer for Point Cloud-Based 3D Scene Graph Generation

ImageGen-CoT: Enhancing Text-to-Image In-context Learning with Chain-of-Thought Reasoning

SlowFast-VGen: Slow-Fast Learning for Action-Driven Long Video Generation

Scaling Inference-Time Search with Vision Value Model for Improved Visual Comprehension

Tuning Timestep-Distilled Diffusion Model Using Pairwise Sample Optimization

MMSum: A Dataset for Multimodal Summarization and Thumbnail Generation of Videos

Point-RFT: Improving Multimodal Reasoning with Visually Grounded Reinforcement Finetuning

IDOL: Unified Dual-Modal Latent Diffusion for Human-Centric Joint Video-Depth Generation

SITE: towards Spatial Intelligence Thorough Evaluation

LiVOS: Light Video Object Segmentation with Gated Linear Matching

StrokeNUWA—Tokenizing Strokes for Vector Graphic Synthesis

PromptCap: Prompt-Guided Image Captioning for VQA with GPT-3