William Yang Wang

papers

1,942

total citations

papers (26)

REVERIE: Remote Embodied Visual Referring Expression in Real Indoor Environments

CVPR 2020arXiv

433

citations

LayoutGPT: Compositional Visual Planning and Generation with Large Language Models

NEURIPS 2023arXiv

300

citations

Multimodal C4: An Open, Billion-scale Corpus of Images Interleaved with Text

NEURIPS 2023arXiv

222

citations

Large Language Models Are Latent Variable Models: Explaining and Finding Good Demonstrations for In-Context Learning

NEURIPS 2023arXiv

164

citations

VELMA: Verbalization Embodiment of LLM Agents for Vision and Language Navigation in Street View

AAAI 2024arXiv

108

citations

LLMScore: Unveiling the Power of Large Language Models in Text-to-Image Synthesis Evaluation

NEURIPS 2023arXiv

100

citations

Weak-to-Strong Jailbreaking on Large Language Models

ICML 2025arXiv

citations

Learning Concise and Descriptive Attributes for Visual Recognition

ICCV 2023arXiv

citations

An Empirical Study of End-to-End Video-Language Transformers With Masked Visual Modeling

CVPR 2023arXiv

citations

Unsupervised Reinforcement Learning of Transferable Meta-Skills for Embodied Navigation

CVPR 2020arXiv

citations

Environment-agnostic Multitask Learning for Natural Language Grounded Navigation

ECCV 2020arXiv

citations

Tell Me What Happened: Unifying Text-Guided Video Completion via Multimodal Masked Video Generation

CVPR 2023arXiv

citations

Unveiling the Impact of Coding Data Instruction Fine-Tuning on Large Language Models Reasoning

AAAI 2025arXiv

citations

Reward Guided Latent Consistency Distillation

ICLR 2025arXiv

citations

Combating Multimodal LLM Hallucination via Bottom-Up Holistic Reasoning

AAAI 2025arXiv

citations

VSP: Diagnosing the Dual Challenges of Perception and Reasoning in Spatial Planning Tasks for MLLMs

ICCV 2025

citations

Improving Few-Shot Generalization by Exploring and Exploiting Auxiliary Data

NEURIPS 2023arXiv

citations

Local Explanation of Dialogue Response Generation

NEURIPS 2021arXiv

citations

BlobGEN-Vid: Compositional Text-to-Video Generation with Blob Video Representations

CVPR 2025arXiv

citations

M3L: Language-Based Video Editing via Multi-Modal Multi-Level Transformers

CVPR 2022arXiv

citations

Counterfactual Maximum Likelihood Estimation for Training Deep Networks

NEURIPS 2021arXiv

citations

Flexible Attention-Based Multi-Policy Fusion for Efficient Deep Reinforcement Learning

NEURIPS 2023arXiv

citations

William Yang Wang

papers (26)

REVERIE: Remote Embodied Visual Referring Expression in Real Indoor Environments

LayoutGPT: Compositional Visual Planning and Generation with Large Language Models

Multimodal C4: An Open, Billion-scale Corpus of Images Interleaved with Text

Large Language Models Are Latent Variable Models: Explaining and Finding Good Demonstrations for In-Context Learning

VELMA: Verbalization Embodiment of LLM Agents for Vision and Language Navigation in Street View

LLMScore: Unveiling the Power of Large Language Models in Text-to-Image Synthesis Evaluation

Weak-to-Strong Jailbreaking on Large Language Models

Learning Concise and Descriptive Attributes for Visual Recognition

An Empirical Study of End-to-End Video-Language Transformers With Masked Visual Modeling

Unsupervised Reinforcement Learning of Transferable Meta-Skills for Embodied Navigation

Environment-agnostic Multitask Learning for Natural Language Grounded Navigation

Tell Me What Happened: Unifying Text-Guided Video Completion via Multimodal Masked Video Generation

Unveiling the Impact of Coding Data Instruction Fine-Tuning on Large Language Models Reasoning

Reward Guided Latent Consistency Distillation

Combating Multimodal LLM Hallucination via Bottom-Up Holistic Reasoning

VSP: Diagnosing the Dual Challenges of Perception and Reasoning in Spatial Planning Tasks for MLLMs

Improving Few-Shot Generalization by Exploring and Exploiting Auxiliary Data

Local Explanation of Dialogue Response Generation

BlobGEN-Vid: Compositional Text-to-Video Generation with Blob Video Representations

M3L: Language-Based Video Editing via Multi-Modal Multi-Level Transformers

Counterfactual Maximum Likelihood Estimation for Training Deep Networks

Flexible Attention-Based Multi-Policy Fusion for Efficient Deep Reinforcement Learning

VITED: Video Temporal Evidence Distillation

Counterfactual Vision-and-Language Navigation via Adversarial Path Sampler

Language-Driven Artistic Style Transfer

ALGO: Synthesizing Algorithmic Programs with Generated Oracle Verifiers

papers (26)

REVERIE: Remote Embodied Visual Referring Expression in Real Indoor Environments

LayoutGPT: Compositional Visual Planning and Generation with Large Language Models

Multimodal C4: An Open, Billion-scale Corpus of Images Interleaved with Text

Large Language Models Are Latent Variable Models: Explaining and Finding Good Demonstrations for In-Context Learning

VELMA: Verbalization Embodiment of LLM Agents for Vision and Language Navigation in Street View

LLMScore: Unveiling the Power of Large Language Models in Text-to-Image Synthesis Evaluation

Weak-to-Strong Jailbreaking on Large Language Models

Learning Concise and Descriptive Attributes for Visual Recognition

An Empirical Study of End-to-End Video-Language Transformers With Masked Visual Modeling

Unsupervised Reinforcement Learning of Transferable Meta-Skills for Embodied Navigation

Environment-agnostic Multitask Learning for Natural Language Grounded Navigation

Tell Me What Happened: Unifying Text-Guided Video Completion via Multimodal Masked Video Generation

Unveiling the Impact of Coding Data Instruction Fine-Tuning on Large Language Models Reasoning

Reward Guided Latent Consistency Distillation

Combating Multimodal LLM Hallucination via Bottom-Up Holistic Reasoning

VSP: Diagnosing the Dual Challenges of Perception and Reasoning in Spatial Planning Tasks for MLLMs

Improving Few-Shot Generalization by Exploring and Exploiting Auxiliary Data

Local Explanation of Dialogue Response Generation

BlobGEN-Vid: Compositional Text-to-Video Generation with Blob Video Representations

M3L: Language-Based Video Editing via Multi-Modal Multi-Level Transformers

Counterfactual Maximum Likelihood Estimation for Training Deep Networks

Flexible Attention-Based Multi-Policy Fusion for Efficient Deep Reinforcement Learning

VITED: Video Temporal Evidence Distillation

Counterfactual Vision-and-Language Navigation via Adversarial Path Sampler

Language-Driven Artistic Style Transfer

ALGO: Synthesizing Algorithmic Programs with Generated Oracle Verifiers