Mohammad Ghavamzadeh

papers

592

total citations

papers (13)

On Dynamic Programming Decompositions of Static Risk Measures in Markov Decision Processes

NEURIPS 2023arXiv

citations

Operator Splitting Value Iteration

NEURIPS 2022arXiv

citations

Confidence-aware Reward Optimization for Fine-tuning Text-to-Image Models

ICLR 2024arXiv

citations

Offline Reinforcement Learning for Mixture-of-Expert Dialogue Management

NEURIPS 2023arXiv

citations

Online Planning with Lookahead Policies

NEURIPS 2020arXiv

citations

Ordering-based Conditions for Global Convergence of Policy Gradient Methods

NEURIPS 2023arXiv

citations

Private and Communication-Efficient Algorithms for Entropy Estimation

NEURIPS 2022arXiv

citations

Bayesian Regret Minimization in Offline Bandits

ICML 2024arXiv

citations

Mohammad Ghavamzadeh

papers (13)

DPOK: Reinforcement Learning for Fine-tuning Text-to-Image Diffusion Models

Robust Reinforcement Learning using Offline Data

Efficient Risk-Averse Reinforcement Learning

Adaptive Sampling for Minimax Fair Classification

Does Thinking More Always Help? Mirage of Test-Time Scaling in Reasoning Models

On Dynamic Programming Decompositions of Static Risk Measures in Markov Decision Processes

Operator Splitting Value Iteration

Confidence-aware Reward Optimization for Fine-tuning Text-to-Image Models

Offline Reinforcement Learning for Mixture-of-Expert Dialogue Management

Online Planning with Lookahead Policies

Ordering-based Conditions for Global Convergence of Policy Gradient Methods

Private and Communication-Efficient Algorithms for Entropy Estimation

Bayesian Regret Minimization in Offline Bandits

papers (13)

DPOK: Reinforcement Learning for Fine-tuning Text-to-Image Diffusion Models

Robust Reinforcement Learning using Offline Data

Efficient Risk-Averse Reinforcement Learning

Adaptive Sampling for Minimax Fair Classification

Does Thinking More Always Help? Mirage of Test-Time Scaling in Reasoning Models

On Dynamic Programming Decompositions of Static Risk Measures in Markov Decision Processes

Operator Splitting Value Iteration

Confidence-aware Reward Optimization for Fine-tuning Text-to-Image Models

Offline Reinforcement Learning for Mixture-of-Expert Dialogue Management

Online Planning with Lookahead Policies

Ordering-based Conditions for Global Convergence of Policy Gradient Methods

Private and Communication-Efficient Algorithms for Entropy Estimation

Bayesian Regret Minimization in Offline Bandits