Juncheng Li

papers

1,496

total citations

papers (28)

Momentor: Advancing Video Large Language Model with Fine-Grained Temporal Reasoning

ICML 2024arXiv

104

citations

Fine-Grained Semantically Aligned Vision-Language Pre-Training

NEURIPS 2022arXiv

100

citations

Fine-tuning Multimodal LLMs to Follow Zero-shot Demonstrative Instructions

ICLR 2024arXiv

citations

Compositional Temporal Grounding With Structured Variational Cross-Graph Correspondence Learning

CVPR 2022arXiv

citations

Unsupervised Reinforcement Learning of Transferable Meta-Skills for Embodied Navigation

CVPR 2020arXiv

citations

Visually-Prompted Language Model for Fine-Grained Scene Graph Generation in an Open World

ICCV 2023arXiv

citations

Gradient-Regulated Meta-Prompt Learning for Generalizable Vision-Language Models

ICCV 2023arXiv

citations

Auto-Encoding Morph-Tokens for Multimodal LLM

ICML 2024arXiv

citations

Adaptive Hierarchical Graph Reasoning With Semantic Coherence for Video-and-Language Inference

ICCV 2021arXiv

citations

Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens

CVPR 2025arXiv

citations

STEP: Enhancing Video-LLMs’ Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training

CVPR 2025arXiv

citations

Benchmarking Multimodal CoT Reward Model Stepwise by Visual Program

ICCV 2025arXiv

citations

SILMM: Self-Improving Large Multimodal Models for Compositional Text-to-Image Generation

CVPR 2025arXiv

citations

IDEATOR: Jailbreaking and Benchmarking Large Vision-Language Models Using Themselves

ICCV 2025arXiv

citations

Janus-Pro-R1: Advancing Collaborative Visual Comprehension and Generation via Reinforcement Learning

NEURIPS 2025arXiv

citations

Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining

ICCV 2025arXiv

citations

Boosting Virtual Agent Learning and Reasoning: A Step-Wise, Multi-Dimensional, and Generalist Reward Model with Benchmark

ICML 2025arXiv

citations

Mastering Collaborative Multi-modal Data Selection: A Focus on Informativeness, Uniqueness, and Representativeness

ICCV 2025arXiv

citations

Learning 4D Panoptic Scene Graph Generation from Rich 2D Visual Scene

CVPR 2025arXiv

citations

What Limits Virtual Agent Application? OmniBench: A Scalable Multi-Dimensional Benchmark for Essential Virtual Agent Capabilities

ICML 2025arXiv

citations

Are Binary Annotations Sufficient? Video Moment Retrieval via Hierarchical Uncertainty-Based Active Learning

CVPR 2023

citations

The Best of Both Worlds: Integrating Language Models and Diffusion Models for Video Generation

ICCV 2025arXiv

citations

Learning Coupled Dictionaries from Unpaired Data for Image Super-Resolution

CVPR 2024

citations

DIEM: Decomposition-Integration Enhancing Multimodal Insights

CVPR 2024

citations

Juncheng Li

papers (28)

Masked Autoencoders that Listen

Structure-Preserving Deraining With Residue Channel Prior Guidance

AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea

HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data

Momentor: Advancing Video Large Language Model with Fine-Grained Temporal Reasoning

Fine-Grained Semantically Aligned Vision-Language Pre-Training

Fine-tuning Multimodal LLMs to Follow Zero-shot Demonstrative Instructions

Compositional Temporal Grounding With Structured Variational Cross-Graph Correspondence Learning

Unsupervised Reinforcement Learning of Transferable Meta-Skills for Embodied Navigation

Visually-Prompted Language Model for Fine-Grained Scene Graph Generation in an Open World

Gradient-Regulated Meta-Prompt Learning for Generalizable Vision-Language Models

Auto-Encoding Morph-Tokens for Multimodal LLM

Adaptive Hierarchical Graph Reasoning With Semantic Coherence for Video-and-Language Inference

Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens

STEP: Enhancing Video-LLMs’ Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training

Benchmarking Multimodal CoT Reward Model Stepwise by Visual Program

SILMM: Self-Improving Large Multimodal Models for Compositional Text-to-Image Generation

IDEATOR: Jailbreaking and Benchmarking Large Vision-Language Models Using Themselves

Janus-Pro-R1: Advancing Collaborative Visual Comprehension and Generation via Reinforcement Learning

Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining

Boosting Virtual Agent Learning and Reasoning: A Step-Wise, Multi-Dimensional, and Generalist Reward Model with Benchmark

Mastering Collaborative Multi-modal Data Selection: A Focus on Informativeness, Uniqueness, and Representativeness

Learning 4D Panoptic Scene Graph Generation from Rich 2D Visual Scene

What Limits Virtual Agent Application? OmniBench: A Scalable Multi-Dimensional Benchmark for Essential Virtual Agent Capabilities

Are Binary Annotations Sufficient? Video Moment Retrieval via Hierarchical Uncertainty-Based Active Learning

The Best of Both Worlds: Integrating Language Models and Diffusion Models for Video Generation

Learning Coupled Dictionaries from Unpaired Data for Image Super-Resolution

DIEM: Decomposition-Integration Enhancing Multimodal Insights

papers (28)

Masked Autoencoders that Listen

Structure-Preserving Deraining With Residue Channel Prior Guidance

AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea

HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data

Momentor: Advancing Video Large Language Model with Fine-Grained Temporal Reasoning

Fine-Grained Semantically Aligned Vision-Language Pre-Training

Fine-tuning Multimodal LLMs to Follow Zero-shot Demonstrative Instructions

Compositional Temporal Grounding With Structured Variational Cross-Graph Correspondence Learning

Unsupervised Reinforcement Learning of Transferable Meta-Skills for Embodied Navigation

Visually-Prompted Language Model for Fine-Grained Scene Graph Generation in an Open World

Gradient-Regulated Meta-Prompt Learning for Generalizable Vision-Language Models

Auto-Encoding Morph-Tokens for Multimodal LLM

Adaptive Hierarchical Graph Reasoning With Semantic Coherence for Video-and-Language Inference

Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens

STEP: Enhancing Video-LLMs’ Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training

Benchmarking Multimodal CoT Reward Model Stepwise by Visual Program

SILMM: Self-Improving Large Multimodal Models for Compositional Text-to-Image Generation

IDEATOR: Jailbreaking and Benchmarking Large Vision-Language Models Using Themselves

Janus-Pro-R1: Advancing Collaborative Visual Comprehension and Generation via Reinforcement Learning

Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining

Boosting Virtual Agent Learning and Reasoning: A Step-Wise, Multi-Dimensional, and Generalist Reward Model with Benchmark

Mastering Collaborative Multi-modal Data Selection: A Focus on Informativeness, Uniqueness, and Representativeness

Learning 4D Panoptic Scene Graph Generation from Rich 2D Visual Scene

What Limits Virtual Agent Application? OmniBench: A Scalable Multi-Dimensional Benchmark for Essential Virtual Agent Capabilities

Are Binary Annotations Sufficient? Video Moment Retrieval via Hierarchical Uncertainty-Based Active Learning

The Best of Both Worlds: Integrating Language Models and Diffusion Models for Video Generation

Learning Coupled Dictionaries from Unpaired Data for Image Super-Resolution

DIEM: Decomposition-Integration Enhancing Multimodal Insights