Sanmi Koyejo

papers

1,430

total citations

papers (16)

Are Emergent Abilities of Large Language Models a Mirage?

NEURIPS 2023arXiv

585

citations

DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models

NEURIPS 2023arXiv

571

citations

Diagnosing failures of fairness transfer across distribution shift in real-world medical settings

NEURIPS 2022arXiv

citations

CSER: Communication-efficient SGD with Error Reset

NEURIPS 2020arXiv

citations

Why Has Predicting Downstream Capabilities of Frontier AI Models with Scale Remained Elusive?

ICML 2025arXiv

citations

Self-Supervised Learning of Representations for Space Generates Multi-Modular Grid Cells

NEURIPS 2023arXiv

citations

Machine Unlearning Doesn't Do What You Think: Lessons for Generative AI Policy and Research

NEURIPS 2025arXiv

citations

Sharpe Ratio-Guided Active Learning for Preference Optimization in RLHF

COLM 2025arXiv

citations

CoPur: Certifiably Robust Collaborative Inference via Feature Purification

NEURIPS 2022

citations

Implicit Regularization in Feedback Alignment Learning Mechanisms for Neural Networks

ICML 2024arXiv

citations

Fairness with Overlapping Groups; a Probabilistic Perspective

NEURIPS 2020

citations

Sanmi Koyejo

papers (16)

Are Emergent Abilities of Large Language Models a Mirage?

DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models

Diagnosing failures of fairness transfer across distribution shift in real-world medical settings

CSER: Communication-efficient SGD with Error Reset

Why Has Predicting Downstream Capabilities of Frontier AI Models with Scale Remained Elusive?

Self-Supervised Learning of Representations for Space Generates Multi-Modular Grid Cells

Transforming and Combining Rewards for Aligning Large Language Models

Failures to Find Transferable Image Jailbreaks Between Vision-Language Models

Fair Performance Metric Elicitation

A Reduction to Binary Approach for Debiasing Multiclass Datasets

Fair Wrapping for Black-box Predictions

Machine Unlearning Doesn't Do What You Think: Lessons for Generative AI Policy and Research

Sharpe Ratio-Guided Active Learning for Preference Optimization in RLHF

CoPur: Certifiably Robust Collaborative Inference via Feature Purification

Implicit Regularization in Feedback Alignment Learning Mechanisms for Neural Networks

Fairness with Overlapping Groups; a Probabilistic Perspective

papers (16)

Are Emergent Abilities of Large Language Models a Mirage?

DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models

Diagnosing failures of fairness transfer across distribution shift in real-world medical settings

CSER: Communication-efficient SGD with Error Reset

Why Has Predicting Downstream Capabilities of Frontier AI Models with Scale Remained Elusive?

Self-Supervised Learning of Representations for Space Generates Multi-Modular Grid Cells

Transforming and Combining Rewards for Aligning Large Language Models

Failures to Find Transferable Image Jailbreaks Between Vision-Language Models

Fair Performance Metric Elicitation

A Reduction to Binary Approach for Debiasing Multiclass Datasets

Fair Wrapping for Black-box Predictions

Machine Unlearning Doesn't Do What You Think: Lessons for Generative AI Policy and Research

Sharpe Ratio-Guided Active Learning for Preference Optimization in RLHF

CoPur: Certifiably Robust Collaborative Inference via Feature Purification

Implicit Regularization in Feedback Alignment Learning Mechanisms for Neural Networks

Fairness with Overlapping Groups; a Probabilistic Perspective