Mintong Kang

papers

944

total citations

papers (13)

DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models

NEURIPS 2023arXiv

571

citations

EIA: ENVIRONMENTAL INJECTION ATTACK ON GENERALIST WEB AGENTS FOR PRIVACY LEAKAGE

ICLR 2025arXiv

111

citations

$R^2$-Guard: Robust Reasoning Enabled LLM Guardrail via Knowledge-Enhanced Logical Reasoning

ICLR 2025arXiv

citations

C-RAG: Certified Generation Risks for Retrieval-Augmented Language Models

ICML 2024arXiv

citations

AdvWave: Stealthy Adversarial Jailbreak Attack against Large Audio-Language Models

ICLR 2025arXiv

citations

Certifying Some Distributional Fairness with Subpopulation Decomposition

NEURIPS 2022arXiv

citations

MMDT: Decoding the Trustworthiness and Safety of Multimodal Foundation Models

ICLR 2025arXiv

citations

Certifiably Byzantine-Robust Federated Conformal Prediction

ICML 2024arXiv

citations

PolyGuard: Massive Multi-Domain Safety Policy-Grounded Guardrail Dataset

NEURIPS 2025

citations

FG-OrIU: Towards Better Forgetting via Feature-Gradient Orthogonality for Incremental Unlearning

ICCV 2025arXiv

citations

Mintong Kang

papers (13)

DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models

EIA: ENVIRONMENTAL INJECTION ATTACK ON GENERALIST WEB AGENTS FOR PRIVACY LEAKAGE

DiffAttack: Evasion Attacks Against Diffusion-Based Adversarial Purification

ShieldAgent: Shielding Agents via Verifiable Safety Policy Reasoning

Fairness in Federated Learning via Core-Stability

$R^2$-Guard: Robust Reasoning Enabled LLM Guardrail via Knowledge-Enhanced Logical Reasoning

C-RAG: Certified Generation Risks for Retrieval-Augmented Language Models

AdvWave: Stealthy Adversarial Jailbreak Attack against Large Audio-Language Models

Certifying Some Distributional Fairness with Subpopulation Decomposition

MMDT: Decoding the Trustworthiness and Safety of Multimodal Foundation Models

Certifiably Byzantine-Robust Federated Conformal Prediction

PolyGuard: Massive Multi-Domain Safety Policy-Grounded Guardrail Dataset

FG-OrIU: Towards Better Forgetting via Feature-Gradient Orthogonality for Incremental Unlearning

papers (13)

DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models

EIA: ENVIRONMENTAL INJECTION ATTACK ON GENERALIST WEB AGENTS FOR PRIVACY LEAKAGE

DiffAttack: Evasion Attacks Against Diffusion-Based Adversarial Purification

ShieldAgent: Shielding Agents via Verifiable Safety Policy Reasoning

Fairness in Federated Learning via Core-Stability

$R^2$-Guard: Robust Reasoning Enabled LLM Guardrail via Knowledge-Enhanced Logical Reasoning

C-RAG: Certified Generation Risks for Retrieval-Augmented Language Models

AdvWave: Stealthy Adversarial Jailbreak Attack against Large Audio-Language Models

Certifying Some Distributional Fairness with Subpopulation Decomposition

MMDT: Decoding the Trustworthiness and Safety of Multimodal Foundation Models

Certifiably Byzantine-Robust Federated Conformal Prediction

PolyGuard: Massive Multi-Domain Safety Policy-Grounded Guardrail Dataset

FG-OrIU: Towards Better Forgetting via Feature-Gradient Orthogonality for Incremental Unlearning