Jacob Steinhardt

papers

6,783

total citations

papers (28)

The Many Faces of Robustness: A Critical Analysis of Out-of-Distribution Generalization

ICCV 2021arXiv

2,156

citations

Enabling certification of verification-agnostic networks via memory-efficient semidefinite programming

NEURIPS 2020arXiv

101

citations

Do Models Explain Themselves? Counterfactual Simulatability of Natural Language Explanations

ICML 2024arXiv

citations

Language Models Learn to Mislead Humans via RLHF

ICLR 2025arXiv

citations

How do Language Models Bind Entities in Context?

ICLR 2024arXiv

citations

Covert Malicious Finetuning: Challenges in Safeguarding LLM Adaptation

ICML 2024arXiv

citations

Goal Driven Discovery of Distributional Differences via Language Descriptions

NEURIPS 2023arXiv

citations

Feedback Loops With Language Models Drive In-Context Reward Hacking

ICML 2024arXiv

citations

Describing Differences in Image Sets with Natural Language

CVPR 2024arXiv

citations

Mass-Producing Failures of Multimodal Systems with Language Models

NEURIPS 2023arXiv

citations

Learning Equilibria in Matching Markets from Bandit Feedback

NEURIPS 2021arXiv

citations

Supply-Side Equilibria in Recommender Systems

NEURIPS 2023arXiv

citations

Forecasting Future World Events With Neural Networks

NEURIPS 2022arXiv

citations

Which Attention Heads Matter for In-Context Learning?

ICML 2025arXiv

citations

Limitations of Post-Hoc Feature Alignment for Robustness

CVPR 2021arXiv

citations

Monitoring Latent World States in Language Models with Propositional Probes

ICLR 2025arXiv

citations

Improved Bayes Risk Can Yield Reduced Social Welfare Under Competition

NEURIPS 2023arXiv

citations

Establishing Best Practices in Building Rigorous Agentic Benchmarks

NEURIPS 2025arXiv

citations

Eliciting Language Model Behaviors with Investigator Agents

ICML 2025arXiv

citations

How Would The Viewer Feel? Estimating Wellbeing From Video Scenarios

NEURIPS 2022arXiv

citations

Extractive Structures Learned in Pretraining Enable Generalization on Finetuned Facts

ICML 2025arXiv

citations

Uncovering Gaps in How Humans and LLMs Interpret Subjective Language

ICLR 2025arXiv

citations

Grounding Representation Similarity Through Statistical Testing

NEURIPS 2021

citations

Jacob Steinhardt

papers (28)

The Many Faces of Robustness: A Critical Analysis of Out-of-Distribution Generalization

Natural Adversarial Examples

Jailbroken: How Does LLM Safety Training Fail?

PixMix: Dreamlike Pictures Comprehensively Improve Safety Measures

Interpreting CLIP's Image Representation via Text-Based Decomposition

Capturing Failures of Large Language Models via Human Cognitive Biases

Enabling certification of verification-agnostic networks via memory-efficient semidefinite programming

Do Models Explain Themselves? Counterfactual Simulatability of Natural Language Explanations

Language Models Learn to Mislead Humans via RLHF

How do Language Models Bind Entities in Context?

Covert Malicious Finetuning: Challenges in Safeguarding LLM Adaptation

Goal Driven Discovery of Distributional Differences via Language Descriptions

Feedback Loops With Language Models Drive In-Context Reward Hacking

Describing Differences in Image Sets with Natural Language

Mass-Producing Failures of Multimodal Systems with Language Models

Learning Equilibria in Matching Markets from Bandit Feedback

Supply-Side Equilibria in Recommender Systems

Forecasting Future World Events With Neural Networks

Which Attention Heads Matter for In-Context Learning?

Limitations of Post-Hoc Feature Alignment for Robustness

Monitoring Latent World States in Language Models with Propositional Probes

Improved Bayes Risk Can Yield Reduced Social Welfare Under Competition

Establishing Best Practices in Building Rigorous Agentic Benchmarks

Eliciting Language Model Behaviors with Investigator Agents

How Would The Viewer Feel? Estimating Wellbeing From Video Scenarios

Extractive Structures Learned in Pretraining Enable Generalization on Finetuned Facts

Uncovering Gaps in How Humans and LLMs Interpret Subjective Language

Grounding Representation Similarity Through Statistical Testing

papers (28)

The Many Faces of Robustness: A Critical Analysis of Out-of-Distribution Generalization

Natural Adversarial Examples

Jailbroken: How Does LLM Safety Training Fail?

PixMix: Dreamlike Pictures Comprehensively Improve Safety Measures

Interpreting CLIP's Image Representation via Text-Based Decomposition

Capturing Failures of Large Language Models via Human Cognitive Biases

Enabling certification of verification-agnostic networks via memory-efficient semidefinite programming

Do Models Explain Themselves? Counterfactual Simulatability of Natural Language Explanations

Language Models Learn to Mislead Humans via RLHF

How do Language Models Bind Entities in Context?

Covert Malicious Finetuning: Challenges in Safeguarding LLM Adaptation

Goal Driven Discovery of Distributional Differences via Language Descriptions

Feedback Loops With Language Models Drive In-Context Reward Hacking

Describing Differences in Image Sets with Natural Language

Mass-Producing Failures of Multimodal Systems with Language Models

Learning Equilibria in Matching Markets from Bandit Feedback

Supply-Side Equilibria in Recommender Systems

Forecasting Future World Events With Neural Networks

Which Attention Heads Matter for In-Context Learning?

Limitations of Post-Hoc Feature Alignment for Robustness

Monitoring Latent World States in Language Models with Propositional Probes

Improved Bayes Risk Can Yield Reduced Social Welfare Under Competition

Establishing Best Practices in Building Rigorous Agentic Benchmarks

Eliciting Language Model Behaviors with Investigator Agents

How Would The Viewer Feel? Estimating Wellbeing From Video Scenarios

Extractive Structures Learned in Pretraining Enable Generalization on Finetuned Facts

Uncovering Gaps in How Humans and LLMs Interpret Subjective Language

Grounding Representation Similarity Through Statistical Testing