"reinforcement learning" Papers

300 papers found • Page 5 of 6

Filters:reinforcement learning Clear all

Conference

AAAI 2025 (3,028)COLM 2025 (418)CVPR 2025 (2,873)ICCV 2025 (2,701)ICLR 2025 (3,827)ICML 2025 (3,340)ISMAR 2025 (229)NEURIPS 2025 (5,858)AAAI 2024 (2,289)CVPR 2024 (2,716)ECCV 2024 (2,387)ICLR 2024 (2,297)ICML 2024 (2,635)

Paper Type

poster (24,624)paper (8,558)oral (1,594)spotlight (1,421)highlight (975)

AdaNAT: Exploring Adaptive Policy for Token-Based Image Generation

Zanlin Ni, Yulin Wang, Renping Zhou et al.

ECCV 2024arXiv:2409.00342

citations

Adapt2Reward: Adapting Video-Language Models to Generalizable Robotic Rewards via Failure Prompts

Yanting Yang, Minghao Chen, Qibo Qiu et al.

ECCV 2024arXiv:2407.14872

citations

A Hierarchical Adaptive Multi-Task Reinforcement Learning Framework for Multiplier Circuit Design

Zhihai Wang, Jie Wang, Dongsheng Zuo et al.

ICML 2024

AlignSAM: Aligning Segment Anything Model to Open Context via Reinforcement Learning

Duojun Huang, Xinyu Xiong, Jie Ma et al.

CVPR 2024arXiv:2406.00480

citations

A Neural-Guided Dynamic Symbolic Network for Exploring Mathematical Expressions from Data

Wenqiang Li, Weijun Li, Lina Yu et al.

ICML 2024arXiv:2309.13705

citations

An Improved Finite-time Analysis of Temporal Difference Learning with Deep Neural Networks

Zhifa Ke, Zaiwen Wen, Junyu Zhang

ICML 2024oralarXiv:2405.04017

citations

An Information Theoretic Approach to Interaction-Grounded Learning

Xiaoyan Hu, Farzan Farnia, Ho-fung Leung

ICML 2024arXiv:2401.05015

citations

Augmenting Decision with Hypothesis in Reinforcement Learning

Nguyen Minh Quang, Hady Lauw

ICML 2024

Boosting Reinforcement Learning with Strongly Delayed Feedback Through Auxiliary Short Delays

Qingyuan Wu, Simon Zhan, Yixuan Wang et al.

ICML 2024arXiv:2402.03141

citations

Building Minimal and Reusable Causal State Abstractions for Reinforcement Learning

Zizhao Wang, Caroline Wang, Xuesu Xiao et al.

AAAI 2024paperarXiv:2401.12497

citations

Code as Reward: Empowering Reinforcement Learning with VLMs

David Venuto, Mohammad Sami Nur Islam, Martin Klissarov et al.

ICML 2024spotlightarXiv:2402.04764

citations

ConsistentEE: A Consistent and Hardness-Guided Early Exiting Method for Accelerating Language Models Inference

Ziqian Zeng, Yihuai Hong, Hongliang Dai et al.

AAAI 2024paperarXiv:2312.11882

citations

Cross-Domain Policy Adaptation by Capturing Representation Mismatch

Jiafei Lyu, Chenjia Bai, Jing-Wen Yang et al.

ICML 2024arXiv:2405.15369

citations

Dealing With Unbounded Gradients in Stochastic Saddle-point Optimization

Gergely Neu, Nneka Okolo

ICML 2024arXiv:2402.13903

citations

DGPO: Discovering Multiple Strategies with Diversity-Guided Policy Optimization

Wenze Chen, Shiyu Huang, Yuan Chiang et al.

AAAI 2024paperarXiv:2207.05631

citations

DiffAIL: Diffusion Adversarial Imitation Learning

Bingzheng Wang, Guoqiang Wu, Teng Pang et al.

AAAI 2024paperarXiv:2312.06348

citations

Discerning Temporal Difference Learning

Jianfei Ma

AAAI 2024paperarXiv:2310.08091

citations

DISCRET: Synthesizing Faithful Explanations For Treatment Effect Estimation

Yinjun Wu, Mayank Keoliya, Kan Chen et al.

ICML 2024spotlightarXiv:2406.00611

citations

Dynamic Knowledge Injection for AIXI Agents

Samuel Yang-Zhao, Kee Siong Ng, Marcus Hutter

AAAI 2024paperarXiv:2312.16184

Efficient Policy Evaluation with Offline Data Informed Behavior Policy Design

Shuze Liu, Shangtong Zhang

ICML 2024arXiv:2301.13734

citations

Efficient World Models with Context-Aware Tokenization

Vincent Micheli, Eloi Alonso, François Fleuret

ICML 2024arXiv:2406.19320

citations

EfficientZero V2: Mastering Discrete and Continuous Control with Limited Data

Shengjie Wang, Shaohuai Liu, Weirui Ye et al.

ICML 2024spotlightarXiv:2403.00564

citations

Episodic Return Decomposition by Difference of Implicitly Assigned Sub-trajectory Reward

Haoxin Lin, Hongqiu Wu, Jiaji Zhang et al.

AAAI 2024paperarXiv:2312.10642

citations

EvoRainbow: Combining Improvements in Evolutionary Reinforcement Learning for Policy Search

Pengyi Li, Yan Zheng, Hongyao Tang et al.

ICML 2024

Explore 3D Dance Generation via Reward Model from Automatically-Ranked Demonstrations

Zilin Wang, Haolin Zhuang, Lu Li et al.

AAAI 2024paperarXiv:2312.11442

citations

Fair Resource Allocation in Multi-Task Learning

Hao Ban, Kaiyi Ji

ICML 2024arXiv:2402.15638

citations

Feedback Efficient Online Fine-Tuning of Diffusion Models

Masatoshi Uehara, Yulai Zhao, Kevin Black et al.

ICML 2024arXiv:2402.16359

citations

Fine-tuning Reinforcement Learning Models is Secretly a Forgetting Mitigation Problem

Maciej Wołczyk, Bartłomiej Cupiał, Mateusz Ostaszewski et al.

ICML 2024spotlightarXiv:2402.02868

citations

Finite Time Logarithmic Regret Bounds for Self-Tuning Regulation

Rahul Singh, Akshay Mete, Avik Kar et al.

ICML 2024

Fourier Controller Networks for Real-Time Decision-Making in Embodied Learning

Hengkai Tan, LIU SONGMING, Kai Ma et al.

ICML 2024arXiv:2405.19885

citations

FuRL: Visual-Language Models as Fuzzy Rewards for Reinforcement Learning

Yuwei Fu, Haichao Zhang, di wu et al.

ICML 2024arXiv:2406.00645

citations

Hieros: Hierarchical Imagination on Structured State Space Sequence World Models

Paul Mattes, Rainer Schlosser, Ralf Herbrich

ICML 2024arXiv:2310.05167

citations

Implicit Bias of Policy Gradient in Linear Quadratic Control: Extrapolation to Unseen Initial States

Noam Razin, Yotam Alexander, Edo Cohen-Karlik et al.

ICML 2024arXiv:2402.07875

citations

Improving Token-Based World Models with Parallel Observation Prediction

Lior Cohen, Kaixin Wang, Bingyi Kang et al.

ICML 2024arXiv:2402.05643

citations

Iterative Regularized Policy Optimization with Imperfect Demonstrations

Xudong Gong, Feng Dawei, Kele Xu et al.

ICML 2024

Knowledge-aware Reinforced Language Models for Protein Directed Evolution

Yuhao Wang, Qiang Zhang, Ming Qin et al.

ICML 2024

Language Agents with Reinforcement Learning for Strategic Play in the Werewolf Game

Zelai Xu, Chao Yu, Fei Fang et al.

ICML 2024arXiv:2310.18940

136

citations

Large-scale Reinforcement Learning for Diffusion Models

Yinan Zhang, Eric Tzeng, Yilun Du et al.

ECCV 2024arXiv:2401.12244

citations

Learning Causal Dynamics Models in Object-Oriented Environments

Zhongwei Yu, Jingqing Ruan, Dengpeng Xing

ICML 2024arXiv:2405.12615

citations

Learning Diverse Risk Preferences in Population-Based Self-Play

Yuhua Jiang, Qihan Liu, Xiaoteng Ma et al.

AAAI 2024paperarXiv:2305.11476

citations

Learning Temporal Distances: Contrastive Successor Features Can Provide a Metric Structure for Decision-Making

Vivek Myers, Chongyi Zheng, Anca Dragan et al.

ICML 2024oralarXiv:2406.17098

citations

Learning the Target Network in Function Space

Kavosh Asadi, Yao Liu, Shoham Sabach et al.

ICML 2024arXiv:2406.01838

citations

Learning to Stabilize Online Reinforcement Learning in Unbounded State Spaces

Brahma Pavse, Matthew Zurek, Yudong Chen et al.

ICML 2024arXiv:2306.01896

citations

Learning Uncertainty-Aware Temporally-Extended Actions

Joongkyu Lee, Seung Joon Park, Yunhao Tang et al.

AAAI 2024paperarXiv:2402.05439

citations

Linguistic Calibration of Long-Form Generations

Neil Band, Xuechen Li, Tengyu Ma et al.

ICML 2024arXiv:2404.00474

citations

LLM-Empowered State Representation for Reinforcement Learning

Boyuan Wang, Yun Qu, Yuhang Jiang et al.

ICML 2024arXiv:2407.13237

citations

Mixtures of Experts Unlock Parameter Scaling for Deep RL

Johan Obando Ceron, Ghada Sokar, Timon Willi et al.

ICML 2024spotlightarXiv:2402.08609

citations

Multimodal Label Relevance Ranking via Reinforcement Learning

Taian Guo, Taolin Zhang, Haoqian Wu et al.

ECCV 2024arXiv:2407.13221

citations

Near-Optimal Regret in Linear MDPs with Aggregate Bandit Feedback

Asaf Cassel, Haipeng Luo, Aviv Rosenberg et al.

ICML 2024arXiv:2405.07637

citations

No-Regret Reinforcement Learning in Smooth MDPs

Davide Maran, Alberto Maria Metelli, Matteo Papini et al.

ICML 2024arXiv:2402.03792

citations

← Previous

1...3 4 5 6