Chunyuan Li

papers

21,273

total citations

papers (27)

LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

NEURIPS 2023arXiv

1,391

citations

GLIGEN: Open-Set Grounded Text-to-Image Generation

CVPR 2023arXiv

816

citations

RegionCLIP: Region-Based Language-Image Pretraining

CVPR 2022arXiv

781

citations

Focal Modulation Networks

NEURIPS 2022arXiv

394

citations

Generalized Decoding for Pixel, Image, and Language

CVPR 2023arXiv

336

citations

Towards Learning a Generic Agent for Vision-and-Language Navigation via Pre-Training

CVPR 2020arXiv

326

citations

Unified Contrastive Learning in Image-Text-Label Space

CVPR 2022arXiv

276

citations

A Simple Framework for Open-Vocabulary Segmentation and Detection

ICCV 2023arXiv

216

citations

Towards Language-Free Training for Text-to-Image Generation

CVPR 2022arXiv

209

citations

ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented Visual Models

NEURIPS 2022arXiv

178

citations

LLaVA-Critic: Learning to Evaluate Multimodal Models

CVPR 2025arXiv

103

citations

K-LITE: Learning Transferable Visual Models with External Knowledge

NEURIPS 2022arXiv

citations

Large Language Models are Visual Reasoning Coordinators

NEURIPS 2023arXiv

citations

Learning Customized Visual Models With Retrieval-Augmented Knowledge

CVPR 2023arXiv

citations

Visual In-Context Prompting

CVPR 2024arXiv

citations

Structure-Aware Human-Action Generation

ECCV 2020arXiv

citations

Exploring Robustness of Unsupervised Domain Adaptation in Semantic Segmentation

ICCV 2021arXiv

citations

Graphic Design with Large Multimodal Model

AAAI 2025arXiv

citations

Partition-Guided GANs

CVPR 2021arXiv

citations

Painting with Words: Elevating Detailed Image Captioning with Benchmark and Alignment Learning

ICLR 2025arXiv

citations

MMSearch: Unveiling the Potential of Large Models as Multi-modal Search Engines

ICLR 2025

citations

Focal Attention for Long-Range Interactions in Vision Transformers

NEURIPS 2021

citations

Position: TrustLLM: Trustworthiness in Large Language Models

ICML 2024

citations

Chunyuan Li

papers (27)

Visual Instruction Tuning

Improved Baselines with Visual Instruction Tuning

Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks

Grounded Language-Image Pre-Training

LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

GLIGEN: Open-Set Grounded Text-to-Image Generation

RegionCLIP: Region-Based Language-Image Pretraining

Focal Modulation Networks

Generalized Decoding for Pixel, Image, and Language

Towards Learning a Generic Agent for Vision-and-Language Navigation via Pre-Training

Unified Contrastive Learning in Image-Text-Label Space

A Simple Framework for Open-Vocabulary Segmentation and Detection

Towards Language-Free Training for Text-to-Image Generation

ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented Visual Models

LLaVA-Critic: Learning to Evaluate Multimodal Models

K-LITE: Learning Transferable Visual Models with External Knowledge

Large Language Models are Visual Reasoning Coordinators

Learning Customized Visual Models With Retrieval-Augmented Knowledge

Visual In-Context Prompting

Structure-Aware Human-Action Generation

Exploring Robustness of Unsupervised Domain Adaptation in Semantic Segmentation

Graphic Design with Large Multimodal Model

Partition-Guided GANs

Painting with Words: Elevating Detailed Image Captioning with Benchmark and Alignment Learning

MMSearch: Unveiling the Potential of Large Models as Multi-modal Search Engines

Focal Attention for Long-Range Interactions in Vision Transformers

Position: TrustLLM: Trustworthiness in Large Language Models

papers (27)

Visual Instruction Tuning

Improved Baselines with Visual Instruction Tuning

Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks

Grounded Language-Image Pre-Training

LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

GLIGEN: Open-Set Grounded Text-to-Image Generation

RegionCLIP: Region-Based Language-Image Pretraining

Focal Modulation Networks

Generalized Decoding for Pixel, Image, and Language

Towards Learning a Generic Agent for Vision-and-Language Navigation via Pre-Training

Unified Contrastive Learning in Image-Text-Label Space

A Simple Framework for Open-Vocabulary Segmentation and Detection

Towards Language-Free Training for Text-to-Image Generation

ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented Visual Models

LLaVA-Critic: Learning to Evaluate Multimodal Models

K-LITE: Learning Transferable Visual Models with External Knowledge

Large Language Models are Visual Reasoning Coordinators

Learning Customized Visual Models With Retrieval-Augmented Knowledge

Visual In-Context Prompting

Structure-Aware Human-Action Generation

Exploring Robustness of Unsupervised Domain Adaptation in Semantic Segmentation

Graphic Design with Large Multimodal Model

Partition-Guided GANs

Painting with Words: Elevating Detailed Image Captioning with Benchmark and Alignment Learning

MMSearch: Unveiling the Potential of Large Models as Multi-modal Search Engines

Focal Attention for Long-Range Interactions in Vision Transformers

Position: TrustLLM: Trustworthiness in Large Language Models