Kaipeng Zhang

papers

1,293

total citations

papers (21)

OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models

ICLR 2024arXiv

341

citations

OneLLM: One Framework to Align All Modalities with Language

CVPR 2024arXiv

201

citations

MMT-Bench: A Comprehensive Multimodal Benchmark for Evaluating Large Vision-Language Models Towards Multitask AGI

ICML 2024arXiv

163

citations

SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models

ICML 2024arXiv

141

citations

GUIOdyssey: A Comprehensive Dataset for Cross-App GUI Navigation on Mobile Devices

ICCV 2025arXiv

113

citations

Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation

ICML 2025arXiv

citations

DiffRate : Differentiable Compression Rate for Efficient Vision Transformers

ICCV 2023arXiv

citations

MMIU: Multimodal Multi-image Understanding for Evaluating Large Vision-Language Models

ICLR 2025arXiv

citations

TagCLIP: A Local-to-Global Framework to Enhance Open-Vocabulary Multi-Label Classification of CLIP without Training

AAAI 2024arXiv

citations

Foundation Model is Efficient Multimodal Multitask Model Selector

NEURIPS 2023arXiv

citations

OpenING: A Comprehensive Benchmark for Judging Open-ended Interleaved Image-Text Generation

CVPR 2025arXiv

citations

Neighboring Autoregressive Modeling for Efficient Visual Generation

ICCV 2025arXiv

citations

Dynamic Multimodal Evaluation with Flexible Complexity by Vision-Language Bootstrapping

ICLR 2025arXiv

citations

REPA Works Until It Doesn’t: Early-Stopped, Holistic Alignment Supercharges Diffusion Training

NEURIPS 2025

citations

DiffAgent: Fast and Accurate Text-to-Image API Selection with Large Language Model

CVPR 2024arXiv

citations

LiT: Delving into a Simple Linear Diffusion Transformer for Image Generation

ICCV 2025arXiv

citations

Data Adaptive Traceback for Vision-Language Foundation Models in Image Classification

AAAI 2024arXiv

citations

ProJudge: A Multi-Modal Multi-Discipline Benchmark and Instruction-Tuning Dataset for MLLM-based Process Judges

ICCV 2025arXiv

citations

Kaipeng Zhang

papers (21)

OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models

OneLLM: One Framework to Align All Modalities with Language

MMT-Bench: A Comprehensive Multimodal Benchmark for Evaluating Large Vision-Language Models Towards Multitask AGI

SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models

GUIOdyssey: A Comprehensive Dataset for Cross-App GUI Navigation on Mobile Devices

Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation

DiffRate : Differentiable Compression Rate for Efficient Vision Transformers

MMIU: Multimodal Multi-image Understanding for Evaluating Large Vision-Language Models

TagCLIP: A Local-to-Global Framework to Enhance Open-Vocabulary Multi-Label Classification of CLIP without Training

Foundation Model is Efficient Multimodal Multitask Model Selector

OpenING: A Comprehensive Benchmark for Judging Open-ended Interleaved Image-Text Generation

Neighboring Autoregressive Modeling for Efficient Visual Generation

Dynamic Multimodal Evaluation with Flexible Complexity by Vision-Language Bootstrapping

REPA Works Until It Doesn’t: Early-Stopped, Holistic Alignment Supercharges Diffusion Training

DiffAgent: Fast and Accurate Text-to-Image API Selection with Large Language Model

LiT: Delving into a Simple Linear Diffusion Transformer for Image Generation

Data Adaptive Traceback for Vision-Language Foundation Models in Image Classification

ProJudge: A Multi-Modal Multi-Discipline Benchmark and Instruction-Tuning Dataset for MLLM-based Process Judges

Position: Towards Implicit Prompt For Text-To-Image Models

Neural Routing by Memory

ZipVL: Accelerating Vision-Language Models through Dynamic Token Sparsity

papers (21)

OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models

OneLLM: One Framework to Align All Modalities with Language

MMT-Bench: A Comprehensive Multimodal Benchmark for Evaluating Large Vision-Language Models Towards Multitask AGI

SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models

GUIOdyssey: A Comprehensive Dataset for Cross-App GUI Navigation on Mobile Devices

Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation

DiffRate : Differentiable Compression Rate for Efficient Vision Transformers

MMIU: Multimodal Multi-image Understanding for Evaluating Large Vision-Language Models

TagCLIP: A Local-to-Global Framework to Enhance Open-Vocabulary Multi-Label Classification of CLIP without Training

Foundation Model is Efficient Multimodal Multitask Model Selector

OpenING: A Comprehensive Benchmark for Judging Open-ended Interleaved Image-Text Generation

Neighboring Autoregressive Modeling for Efficient Visual Generation

Dynamic Multimodal Evaluation with Flexible Complexity by Vision-Language Bootstrapping

REPA Works Until It Doesn’t: Early-Stopped, Holistic Alignment Supercharges Diffusion Training

DiffAgent: Fast and Accurate Text-to-Image API Selection with Large Language Model

LiT: Delving into a Simple Linear Diffusion Transformer for Image Generation

Data Adaptive Traceback for Vision-Language Foundation Models in Image Classification

ProJudge: A Multi-Modal Multi-Discipline Benchmark and Instruction-Tuning Dataset for MLLM-based Process Judges

Position: Towards Implicit Prompt For Text-To-Image Models

Neural Routing by Memory

ZipVL: Accelerating Vision-Language Models through Dynamic Token Sparsity