Ruoxi Jia

papers

1,384

total citations

papers (23)

The Secret Revealer: Generative Model-Inversion Attacks Against Deep Neural Networks

CVPR 2020arXiv

488

citations

CATER: Intellectual Property Protection on Text Generation APIs via Conditional Watermarks

NEURIPS 2022arXiv

citations

RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content

ICML 2024arXiv

citations

Practical Membership Inference Attacks Against Large-Scale Multi-Modal Models: A Pilot Study

ICCV 2023arXiv

citations

Rethinking Data Shapley for Data Selection Tasks: Misleads and Merits

ICML 2024arXiv

citations

Scalability vs. Utility: Do We Have To Sacrifice One for the Other in Data Importance Quantification?

CVPR 2021arXiv

citations

Performance Scaling via Optimal Transport: Enabling Data Selection from Partially Revealed Sources

NEURIPS 2023arXiv

citations

LLMs Can Plan Only If We Tell Them

ICLR 2025arXiv

citations

The Mirrored Influence Hypothesis: Efficient Data Influence Estimation by Harnessing Forward Passes

CVPR 2024arXiv

citations

A Randomized Approach to Tight Privacy Accounting

NEURIPS 2023arXiv

citations

LLM Can be a Dangerous Persuader: Empirical Study of Persuasion Safety in Large Language Models

COLM 2025arXiv

citations

Renyi Differential Privacy of Propose-Test-Release and Applications to Private and Robust Machine Learning

NEURIPS 2022arXiv

citations

Data-Centric Human Preference with Rationales for Direct Preference Alignment

COLM 2025arXiv

citations

Just Enough Shifts: Mitigating Over-Refusal in Aligned Language Models with Targeted Representation Fine-Tuning

ICML 2025arXiv

citations

Detecting Adversarial Data Using Perturbation Forgery

CVPR 2025arXiv

citations

Efficient Input-level Backdoor Defense on Text-to-Image Synthesis via Neuron Activation Variation

ICCV 2025arXiv

citations

Probing Hidden Knowledge Holes in Unlearned LLMs

NEURIPS 2025

citations

Position: A Safe Harbor for AI Evaluation and Red Teaming

ICML 2024

citations

A Privacy-Friendly Approach to Data Valuation

NEURIPS 2023

citations

Ruoxi Jia

papers (23)

The Secret Revealer: Generative Model-Inversion Attacks Against Deep Neural Networks

Rethinking the Backdoor Attacks' Triggers: A Frequency Perspective

Knowledge-Enriched Distributional Model Inversion Attacks

Algorithm of Thoughts: Enhancing Exploration of Ideas in Large Language Models

Label-Only Model Inversion Attacks via Boundary Repulsion

CATER: Intellectual Property Protection on Text Generation APIs via Conditional Watermarks

RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content

Practical Membership Inference Attacks Against Large-Scale Multi-Modal Models: A Pilot Study

Rethinking Data Shapley for Data Selection Tasks: Misleads and Merits

Scalability vs. Utility: Do We Have To Sacrifice One for the Other in Data Importance Quantification?

Performance Scaling via Optimal Transport: Enabling Data Selection from Partially Revealed Sources

LLMs Can Plan Only If We Tell Them

The Mirrored Influence Hypothesis: Efficient Data Influence Estimation by Harnessing Forward Passes

A Randomized Approach to Tight Privacy Accounting

LLM Can be a Dangerous Persuader: Empirical Study of Persuasion Safety in Large Language Models

Renyi Differential Privacy of Propose-Test-Release and Applications to Private and Robust Machine Learning

Data-Centric Human Preference with Rationales for Direct Preference Alignment

Just Enough Shifts: Mitigating Over-Refusal in Aligned Language Models with Targeted Representation Fine-Tuning

Detecting Adversarial Data Using Perturbation Forgery

Efficient Input-level Backdoor Defense on Text-to-Image Synthesis via Neuron Activation Variation

Probing Hidden Knowledge Holes in Unlearned LLMs

Position: A Safe Harbor for AI Evaluation and Red Teaming

A Privacy-Friendly Approach to Data Valuation

papers (23)

The Secret Revealer: Generative Model-Inversion Attacks Against Deep Neural Networks

Rethinking the Backdoor Attacks' Triggers: A Frequency Perspective

Knowledge-Enriched Distributional Model Inversion Attacks

Algorithm of Thoughts: Enhancing Exploration of Ideas in Large Language Models

Label-Only Model Inversion Attacks via Boundary Repulsion

CATER: Intellectual Property Protection on Text Generation APIs via Conditional Watermarks

RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content

Practical Membership Inference Attacks Against Large-Scale Multi-Modal Models: A Pilot Study

Rethinking Data Shapley for Data Selection Tasks: Misleads and Merits

Scalability vs. Utility: Do We Have To Sacrifice One for the Other in Data Importance Quantification?

Performance Scaling via Optimal Transport: Enabling Data Selection from Partially Revealed Sources

LLMs Can Plan Only If We Tell Them

The Mirrored Influence Hypothesis: Efficient Data Influence Estimation by Harnessing Forward Passes

A Randomized Approach to Tight Privacy Accounting

LLM Can be a Dangerous Persuader: Empirical Study of Persuasion Safety in Large Language Models

Renyi Differential Privacy of Propose-Test-Release and Applications to Private and Robust Machine Learning

Data-Centric Human Preference with Rationales for Direct Preference Alignment

Just Enough Shifts: Mitigating Over-Refusal in Aligned Language Models with Targeted Representation Fine-Tuning

Detecting Adversarial Data Using Perturbation Forgery

Efficient Input-level Backdoor Defense on Text-to-Image Synthesis via Neuron Activation Variation

Probing Hidden Knowledge Holes in Unlearned LLMs

Position: A Safe Harbor for AI Evaluation and Red Teaming

A Privacy-Friendly Approach to Data Valuation