Kai-Wei Chang

Affiliations

MIT CSAILUCLA

papers

6,055

total citations

papers (28)

Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering

NEURIPS 2022arXiv

1,949

citations

Grounded Language-Image Pre-Training

CVPR 2022arXiv

1,431

citations

MathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts

ICLR 2024arXiv

1,235

citations

Chameleon: Plug-and-Play Compositional Reasoning with Large Language Models

NEURIPS 2023arXiv

423

citations

REVEAL: Retrieval-Augmented Visual-Language Pre-Training With Multi-Source Multimodal Knowledge Memory

CVPR 2023arXiv

149

citations

Characterizing Truthfulness in Large Language Model Generations with Local Intrinsic Dimension

ICML 2024arXiv

citations

VideoCon: Robust Video-Language Alignment via Contrast Captions

CVPR 2024arXiv

citations

DesCo: Learning Object Recognition with Rich Language Descriptions

NEURIPS 2023arXiv

citations

When To Solve, When To Verify: Compute-Optimal Problem Solving and Generative Verification for LLM Reasoning

COLM 2025

citations

STIV: Scalable Text and Image Conditioned Video Generation

ICCV 2025arXiv

citations

ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models

ICML 2024arXiv

citations

GIVL: Improving Geographical Inclusivity of Vision-Language Models With Pre-Training Methods

CVPR 2023arXiv

citations

A Pseudo-Semantic Loss for Autoregressive Models with Logical Constraints

NEURIPS 2023arXiv

citations

Automatic Perturbation Analysis for Scalable Certified Robustness and Beyond

NEURIPS 2020arXiv

citations

CoBIT: A Contrastive Bi-directional Image-Text Generation Model

ICLR 2024arXiv

citations

VISCO: Benchmarking Fine-Grained Critique and Correction Towards Self-Improvement in Visual Reasoning

CVPR 2025arXiv

citations

AVIS: Autonomous Visual Information Seeking with Large Language Model Agent

NEURIPS 2023arXiv

citations

Exploring Visual Vulnerabilities via Multi-Loss Adversarial Search for Jailbreaking Vision-Language Models

CVPR 2025arXiv

citations

Verbalized Representation Learning for Interpretable Few-Shot Generalization

ICCV 2025arXiv

citations

On the Discrimination Risk of Mean Aggregation Feature Imputation in Graphs

NEURIPS 2022

citations

Position: TrustLLM: Trustworthiness in Large Language Models

ICML 2024

citations

Kai-Wei Chang

Affiliations

papers (28)

Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering

Grounded Language-Image Pre-Training

MathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts

Chameleon: Plug-and-Play Compositional Reasoning with Large Language Models

REVEAL: Retrieval-Augmented Visual-Language Pre-Training With Multi-Source Multimodal Knowledge Memory

LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory

Semantic Probabilistic Layers for Neuro-Symbolic Learning

On Prompt-Driven Safeguarding for Large Language Models

VideoPhy: Evaluating Physical Commonsense for Video Generation

CleanCLIP: Mitigating Data Poisoning Attacks in Multimodal Contrastive Learning

X-Teaming: Multi-Turn Jailbreaks and Defenses with Adaptive Multi-Agents

Controllable Text Generation with Neurally-Decomposed Oracle

Characterizing Truthfulness in Large Language Model Generations with Local Intrinsic Dimension

VideoCon: Robust Video-Language Alignment via Contrast Captions

DesCo: Learning Object Recognition with Rich Language Descriptions

When To Solve, When To Verify: Compute-Optimal Problem Solving and Generative Verification for LLM Reasoning

STIV: Scalable Text and Image Conditioned Video Generation

ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models

GIVL: Improving Geographical Inclusivity of Vision-Language Models With Pre-Training Methods

A Pseudo-Semantic Loss for Autoregressive Models with Logical Constraints

Automatic Perturbation Analysis for Scalable Certified Robustness and Beyond

CoBIT: A Contrastive Bi-directional Image-Text Generation Model

VISCO: Benchmarking Fine-Grained Critique and Correction Towards Self-Improvement in Visual Reasoning

AVIS: Autonomous Visual Information Seeking with Large Language Model Agent

Exploring Visual Vulnerabilities via Multi-Loss Adversarial Search for Jailbreaking Vision-Language Models

Verbalized Representation Learning for Interpretable Few-Shot Generalization

On the Discrimination Risk of Mean Aggregation Feature Imputation in Graphs

Position: TrustLLM: Trustworthiness in Large Language Models

papers (28)

Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering

Grounded Language-Image Pre-Training

MathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts

Chameleon: Plug-and-Play Compositional Reasoning with Large Language Models

REVEAL: Retrieval-Augmented Visual-Language Pre-Training With Multi-Source Multimodal Knowledge Memory

LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory

Semantic Probabilistic Layers for Neuro-Symbolic Learning

On Prompt-Driven Safeguarding for Large Language Models

VideoPhy: Evaluating Physical Commonsense for Video Generation

CleanCLIP: Mitigating Data Poisoning Attacks in Multimodal Contrastive Learning

X-Teaming: Multi-Turn Jailbreaks and Defenses with Adaptive Multi-Agents

Controllable Text Generation with Neurally-Decomposed Oracle

Characterizing Truthfulness in Large Language Model Generations with Local Intrinsic Dimension

VideoCon: Robust Video-Language Alignment via Contrast Captions

DesCo: Learning Object Recognition with Rich Language Descriptions

When To Solve, When To Verify: Compute-Optimal Problem Solving and Generative Verification for LLM Reasoning

STIV: Scalable Text and Image Conditioned Video Generation

ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models

GIVL: Improving Geographical Inclusivity of Vision-Language Models With Pre-Training Methods

A Pseudo-Semantic Loss for Autoregressive Models with Logical Constraints

Automatic Perturbation Analysis for Scalable Certified Robustness and Beyond

CoBIT: A Contrastive Bi-directional Image-Text Generation Model

VISCO: Benchmarking Fine-Grained Critique and Correction Towards Self-Improvement in Visual Reasoning

AVIS: Autonomous Visual Information Seeking with Large Language Model Agent

Exploring Visual Vulnerabilities via Multi-Loss Adversarial Search for Jailbreaking Vision-Language Models

Verbalized Representation Learning for Interpretable Few-Shot Generalization

On the Discrimination Risk of Mean Aggregation Feature Imputation in Graphs

Position: TrustLLM: Trustworthiness in Large Language Models