Aviral Kumar

papers

4,196

total citations

papers (20)

Why Generalization in RL is Difficult: Epistemic POMDPs and Implicit Partial Observability

NEURIPS 2021arXiv

149

citations

ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL

ICML 2024arXiv

135

citations

DisCor: Corrective Feedback in Reinforcement Learning via Distribution Correction

NEURIPS 2020arXiv

118

citations

Model Inversion Networks for Model-Based Optimization

NEURIPS 2020arXiv

113

citations

Stop Regressing: Training Value Functions via Classification for Scalable Deep RL

ICML 2024arXiv

107

citations

One Solution is Not All You Need: Few-Shot Extrapolation via Structured MaxEnt RL

NEURIPS 2020arXiv

105

citations

Conservative Data Sharing for Multi-Task Offline Reinforcement Learning

NEURIPS 2021arXiv

citations

Scaling Test-Time Compute Without Verification or RL is Suboptimal

ICML 2025arXiv

citations

Inference-Aware Fine-Tuning for Best-of-N Sampling in Large Language Models

ICLR 2025arXiv

citations

Data-Driven Offline Decision-Making via Invariant Representation Learning

NEURIPS 2022arXiv

citations

Efficient Online Reinforcement Learning Fine-Tuning Need Not Retain Offline Data

ICLR 2025arXiv

citations

Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced Datasets

NEURIPS 2023arXiv

citations

Bigger, Regularized, Categorical: High-Capacity Value Functions are Efficient Multi-Task Learners

NEURIPS 2025arXiv

citations

Value-Based Deep RL Scales Predictably

ICML 2025arXiv

citations

ReDS: Offline RL With Heteroskedastic Datasets via Support Constraints

NEURIPS 2023

citations

DASCO: Dual-Generator Adversarial Support Constrained Offline Reinforcement Learning

NEURIPS 2022

citations

Aviral Kumar

papers (20)

Conservative Q-Learning for Offline Reinforcement Learning

COMBO: Conservative Offline Model-Based Policy Optimization

Cal-QL: Calibrated Offline RL Pre-Training for Efficient Online Fine-Tuning

Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data

Why Generalization in RL is Difficult: Epistemic POMDPs and Implicit Partial Observability

ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL

DisCor: Corrective Feedback in Reinforcement Learning via Distribution Correction

Model Inversion Networks for Model-Based Optimization

Stop Regressing: Training Value Functions via Classification for Scalable Deep RL

One Solution is Not All You Need: Few-Shot Extrapolation via Structured MaxEnt RL

Conservative Data Sharing for Multi-Task Offline Reinforcement Learning

Scaling Test-Time Compute Without Verification or RL is Suboptimal

Inference-Aware Fine-Tuning for Best-of-N Sampling in Large Language Models

Data-Driven Offline Decision-Making via Invariant Representation Learning

Efficient Online Reinforcement Learning Fine-Tuning Need Not Retain Offline Data

Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced Datasets

Bigger, Regularized, Categorical: High-Capacity Value Functions are Efficient Multi-Task Learners

Value-Based Deep RL Scales Predictably

ReDS: Offline RL With Heteroskedastic Datasets via Support Constraints

DASCO: Dual-Generator Adversarial Support Constrained Offline Reinforcement Learning

papers (20)

Conservative Q-Learning for Offline Reinforcement Learning

COMBO: Conservative Offline Model-Based Policy Optimization

Cal-QL: Calibrated Offline RL Pre-Training for Efficient Online Fine-Tuning

Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data

Why Generalization in RL is Difficult: Epistemic POMDPs and Implicit Partial Observability

ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL

DisCor: Corrective Feedback in Reinforcement Learning via Distribution Correction

Model Inversion Networks for Model-Based Optimization

Stop Regressing: Training Value Functions via Classification for Scalable Deep RL

One Solution is Not All You Need: Few-Shot Extrapolation via Structured MaxEnt RL

Conservative Data Sharing for Multi-Task Offline Reinforcement Learning

Scaling Test-Time Compute Without Verification or RL is Suboptimal

Inference-Aware Fine-Tuning for Best-of-N Sampling in Large Language Models

Data-Driven Offline Decision-Making via Invariant Representation Learning

Efficient Online Reinforcement Learning Fine-Tuning Need Not Retain Offline Data

Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced Datasets

Bigger, Regularized, Categorical: High-Capacity Value Functions are Efficient Multi-Task Learners

Value-Based Deep RL Scales Predictably

ReDS: Offline RL With Heteroskedastic Datasets via Support Constraints

DASCO: Dual-Generator Adversarial Support Constrained Offline Reinforcement Learning