by Tomek Korbak Papers

7 papers found

Filters:Author: Tomek Korbak Clear all

Conference

AAAI 2025 (3,028)COLM 2025 (418)CVPR 2025 (2,873)ICCV 2025 (2,701)ICLR 2025 (3,827)ICML 2025 (3,340)ISMAR 2025 (229)NEURIPS 2025 (5,858)AAAI 2024 (2,289)CVPR 2024 (2,716)ECCV 2024 (2,387)ICLR 2024 (2,297)ICML 2024 (2,635)

Paper Type

poster (24,624)paper (8,558)oral (1,594)spotlight (1,421)highlight (975)

Fundamental Limitations in Pointwise Defences of LLM Finetuning APIs

Xander Davies, Eric Winsor, Alexandra Souly et al.

NEURIPS 2025arXiv:2502.14828

Inverse Scaling: When Bigger Isn't Better

Joe Cavanagh, Andrew Gritsevskiy, Najoung Kim et al.

ICLR 2025arXiv:2306.09479

Looking Inward: Language Models Can Learn About Themselves by Introspection

Felix Jedidja Binder, James Chua, Tomek Korbak et al.

ICLR 2025oralarXiv:2410.13787

Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback

Javier Rando, Tony Wang, Stewart Slocum et al.

ICLR 2025arXiv:2307.15217

Compositional Preference Models for Aligning LMs

DONGYOUNG GO, Tomek Korbak, Germàn Kruszewski et al.

ICLR 2024arXiv:2310.13011

The Reversal Curse: LLMs trained on “A is B” fail to learn “B is A”

Lukas Berglund, Meg Tong, Maximilian Kaufmann et al.

Towards Understanding Sycophancy in Language Models

Mrinank Sharma, Meg Tong, Tomek Korbak et al.

ICLR 2024arXiv:2310.13548