"policy optimization" Papers

75 papers found • Page 2 of 2

Conference

AAAI 2025 (3,028)COLM 2025 (418)CVPR 2025 (2,873)ICCV 2025 (2,701)ICLR 2025 (3,827)ICML 2025 (3,340)ISMAR 2025 (229)NEURIPS 2025 (5,858)AAAI 2024 (2,289)CVPR 2024 (2,716)ECCV 2024 (2,387)ICLR 2024 (2,297)ICML 2024 (2,635)

Paper Type

poster (24,624)paper (8,558)oral (1,594)spotlight (1,421)highlight (975)

Bayesian Design Principles for Offline-to-Online Reinforcement Learning

Hao Hu, yiqin yang, Jianing Ye et al.

ICML 2024arXiv:2405.20984

citations

Constrained Reinforcement Learning Under Model Mismatch

Zhongchang Sun, Sihong He, Fei Miao et al.

ICML 2024arXiv:2405.01327

citations

Dealing With Unbounded Gradients in Stochastic Saddle-point Optimization

Gergely Neu, Nneka Okolo

ICML 2024arXiv:2402.13903

citations

Degeneration-free Policy Optimization: RL Fine-Tuning for Language Models without Degeneration

Youngsoo Jang, Geon-Hyeong Kim, Byoungjip Kim et al.

ICML 2024

DGPO: Discovering Multiple Strategies with Diversity-Guided Policy Optimization

Wenze Chen, Shiyu Huang, Yuan Chiang et al.

AAAI 2024paperarXiv:2207.05631

citations

EvoRainbow: Combining Improvements in Evolutionary Reinforcement Learning for Policy Search

Pengyi Li, Yan Zheng, Hongyao Tang et al.

ICML 2024

Exploration-Driven Policy Optimization in RLHF: Theoretical Insights on Efficient Data Utilization

Yihan Du, Anna Winnicki, Gal Dalal et al.

ICML 2024arXiv:2402.10342

citations

Improving Instruction Following in Language Models through Proxy-Based Uncertainty Estimation

JoonHo Lee, Jae Oh Woo, Juree Seok et al.

ICML 2024arXiv:2405.06424

citations

Information-Directed Pessimism for Offline Reinforcement Learning

Alec Koppel, Sujay Bhatt, Jiacheng Guo et al.

ICML 2024

Iterative Regularized Policy Optimization with Imperfect Demonstrations

Xudong Gong, Feng Dawei, Kele Xu et al.

ICML 2024

Linear Alignment: A Closed-form Solution for Aligning Human Preferences without Tuning and Feedback

songyang gao, Qiming Ge, Wei Shen et al.

ICML 2024arXiv:2401.11458

citations

Model-based Reinforcement Learning for Confounded POMDPs

Mao Hong, Zhengling Qi, Yanxun Xu

ICML 2024

Near-Optimal Regret in Linear MDPs with Aggregate Bandit Feedback

Asaf Cassel, Haipeng Luo, Aviv Rosenberg et al.

ICML 2024arXiv:2405.07637

citations

Optimistic Model Rollouts for Pessimistic Offline Policy Optimization

Yuanzhao Zhai, Yiying Li, Zijian Gao et al.

AAAI 2024paperarXiv:2401.05899

citations

Optimizing Local Satisfaction of Long-Run Average Objectives in Markov Decision Processes

David Klaska, Antonin Kucera, Vojtěch Kůr et al.

AAAI 2024paperarXiv:2312.12325

citations

Position: Automatic Environment Shaping is the Next Frontier in RL

Younghyo Park, Gabriel Margolis, Pulkit Agrawal

ICML 2024

Probabilistic Constrained Reinforcement Learning with Formal Interpretability

YANRAN WANG, QIUCHEN QIAN, David Boyle

ICML 2024arXiv:2307.07084

citations

Provably Efficient Long-Horizon Exploration in Monte Carlo Tree Search through State Occupancy Regularization

Liam Schramm, Abdeslam Boularias

ICML 2024arXiv:2407.05511

citations

Provably Robust DPO: Aligning Language Models with Noisy Feedback

Sayak Ray Chowdhury, Anush Kini, Nagarajan Natarajan

ICML 2024arXiv:2403.00409

103

citations

Rate-Optimal Policy Optimization for Linear Markov Decision Processes

Uri Sherman, Alon Cohen, Tomer Koren et al.

ICML 2024arXiv:2308.14642

citations

Reflective Policy Optimization

Yaozhong Gan, yan renye, zhe wu et al.

ICML 2024arXiv:2406.03678

citations

ReLU to the Rescue: Improve Your On-Policy Actor-Critic with Positive Advantages

Andrew Jesson, Christopher Lu, Gunshi Gupta et al.

ICML 2024arXiv:2306.01460

citations

Reward Model Learning vs. Direct Policy Optimization: A Comparative Analysis of Learning from Human Preferences

Andi Nika, Debmalya Mandal, Parameswaran Kamalaruban et al.

ICML 2024arXiv:2403.01857

citations

Risk-Sensitive Policy Optimization via Predictive CVaR Policy Gradient

Ju-Hyun Kim, Seungki Min

ICML 2024

Safe Reinforcement Learning using Finite-Horizon Gradient-based Estimation

Juntao Dai, Yaodong Yang, Qian Zheng et al.

ICML 2024arXiv:2412.11138

citations

← Previous

1 2