Linjie Li

Affiliations

Microsoft

papers

5,975

total citations

papers (29)

Large-Scale Adversarial Training for Vision-and-Language Representation Learning

NEURIPS 2020arXiv

540

citations

UNITER: UNiversal Image-TExt Representation Learning

ECCV 2020arXiv

469

citations

Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning

ICLR 2024arXiv

422

citations

Generalized Decoding for Pixel, Image, and Language

CVPR 2023arXiv

336

citations

SwinBERT: End-to-End Transformers With Sparse Attention for Video Captioning

CVPR 2022arXiv

309

citations

ReCo: Region-Controlled Text-to-Image Generation

CVPR 2023arXiv

194

citations

Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone

NEURIPS 2022arXiv

153

citations

DisCo: Disentangled Control for Realistic Human Dance Generation

CVPR 2024arXiv

139

citations

ShowUI: One Vision-Language-Action Model for GUI Visual Agent

CVPR 2025arXiv

131

citations

UC2: Universal Cross-Lingual Cross-Modal Vision-and-Language Pre-Training

CVPR 2021arXiv

108

citations

Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark

ICML 2025arXiv

100

citations

LAVENDER: Unifying Video-Language Understanding As Masked Language Modeling

CVPR 2023arXiv

citations

Adversarial VQA: A New Benchmark for Evaluating the Robustness of VQA Models

ICCV 2021arXiv

citations

An Empirical Study of End-to-End Video-Language Transformers With Masked Visual Modeling

CVPR 2023arXiv

citations

Equivariant Similarity for Vision-Language Foundation Models

ICCV 2023arXiv

citations

MM-Narrator: Narrating Long-form Videos with Multimodal In-Context Learning

CVPR 2024arXiv

citations

MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos

ICLR 2025arXiv

citations

Cross-Modal Representation Learning for Zero-Shot Action Recognition

CVPR 2022arXiv

citations

ImageGen-CoT: Enhancing Text-to-Image In-context Learning with Chain-of-Thought Reasoning

ICCV 2025arXiv

citations

Scaling Inference-Time Search with Vision Value Model for Improved Visual Comprehension

ICCV 2025arXiv

citations

MMSum: A Dataset for Multimodal Summarization and Thumbnail Generation of Videos

CVPR 2024arXiv

citations

Point-RFT: Improving Multimodal Reasoning with Visually Grounded Reinforcement Finetuning

NEURIPS 2025arXiv

citations

Adaptive Human Matting for Dynamic Videos

CVPR 2023arXiv

citations

IDOL: Unified Dual-Modal Latent Diffusion for Human-Centric Joint Video-Depth Generation

ECCV 2024arXiv

citations

LiVOS: Light Video Object Segmentation with Gated Linear Matching

CVPR 2025arXiv

citations

Synthetic Visual Genome

CVPR 2025arXiv

citations

Linjie Li

Affiliations

papers (29)

MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities

Less Is More: ClipBERT for Video-and-Language Learning via Sparse Sampling

Segment Everything Everywhere All at Once

Large-Scale Adversarial Training for Vision-and-Language Representation Learning

UNITER: UNiversal Image-TExt Representation Learning

Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning

Generalized Decoding for Pixel, Image, and Language

SwinBERT: End-to-End Transformers With Sparse Attention for Video Captioning

ReCo: Region-Controlled Text-to-Image Generation

Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone

DisCo: Disentangled Control for Realistic Human Dance Generation

ShowUI: One Vision-Language-Action Model for GUI Visual Agent

UC2: Universal Cross-Lingual Cross-Modal Vision-and-Language Pre-Training

Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark

LAVENDER: Unifying Video-Language Understanding As Masked Language Modeling

Adversarial VQA: A New Benchmark for Evaluating the Robustness of VQA Models

An Empirical Study of End-to-End Video-Language Transformers With Masked Visual Modeling

Equivariant Similarity for Vision-Language Foundation Models

MM-Narrator: Narrating Long-form Videos with Multimodal In-Context Learning

MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos

Cross-Modal Representation Learning for Zero-Shot Action Recognition

ImageGen-CoT: Enhancing Text-to-Image In-context Learning with Chain-of-Thought Reasoning

Scaling Inference-Time Search with Vision Value Model for Improved Visual Comprehension

MMSum: A Dataset for Multimodal Summarization and Thumbnail Generation of Videos

Point-RFT: Improving Multimodal Reasoning with Visually Grounded Reinforcement Finetuning

Adaptive Human Matting for Dynamic Videos

IDOL: Unified Dual-Modal Latent Diffusion for Human-Centric Joint Video-Depth Generation

LiVOS: Light Video Object Segmentation with Gated Linear Matching

Synthetic Visual Genome

papers (29)

MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities

Less Is More: ClipBERT for Video-and-Language Learning via Sparse Sampling

Segment Everything Everywhere All at Once

Large-Scale Adversarial Training for Vision-and-Language Representation Learning

UNITER: UNiversal Image-TExt Representation Learning

Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning

Generalized Decoding for Pixel, Image, and Language

SwinBERT: End-to-End Transformers With Sparse Attention for Video Captioning

ReCo: Region-Controlled Text-to-Image Generation

Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone

DisCo: Disentangled Control for Realistic Human Dance Generation

ShowUI: One Vision-Language-Action Model for GUI Visual Agent

UC2: Universal Cross-Lingual Cross-Modal Vision-and-Language Pre-Training

Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark

LAVENDER: Unifying Video-Language Understanding As Masked Language Modeling

Adversarial VQA: A New Benchmark for Evaluating the Robustness of VQA Models

An Empirical Study of End-to-End Video-Language Transformers With Masked Visual Modeling

Equivariant Similarity for Vision-Language Foundation Models

MM-Narrator: Narrating Long-form Videos with Multimodal In-Context Learning

MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos

Cross-Modal Representation Learning for Zero-Shot Action Recognition

ImageGen-CoT: Enhancing Text-to-Image In-context Learning with Chain-of-Thought Reasoning

Scaling Inference-Time Search with Vision Value Model for Improved Visual Comprehension

MMSum: A Dataset for Multimodal Summarization and Thumbnail Generation of Videos

Point-RFT: Improving Multimodal Reasoning with Visually Grounded Reinforcement Finetuning

Adaptive Human Matting for Dynamic Videos

IDOL: Unified Dual-Modal Latent Diffusion for Human-Centric Joint Video-Depth Generation

LiVOS: Light Video Object Segmentation with Gated Linear Matching

Synthetic Visual Genome