Dale Schuurmans

papers

16,359

total citations

papers (24)

On the Global Convergence Rates of Decentralized Softmax Gradient Play in Markov Potential Games

NEURIPS 2022arXiv

citations

Understanding the Effect of Stochasticity in Policy Optimization

NEURIPS 2021arXiv

citations

Toward Understanding In-context vs. In-weight Learning

ICLR 2025arXiv

citations

Optimal Scaling for Locally Balanced Proposals in Discrete Spaces

NEURIPS 2022arXiv

citations

A Maximum-Entropy Approach to Off-Policy Evaluation in Average-Reward MDPs

NEURIPS 2020arXiv

citations

Plastic Learning with Deep Fourier Features

ICLR 2025arXiv

citations

A Simple Decentralized Cross-Entropy Method

NEURIPS 2022arXiv

citations

Provable Representation with Efficient Planning for Partially Observable Reinforcement Learning

ICML 2024arXiv

citations

Target Networks and Over-parameterization Stabilize Off-policy Bootstrapping with Function Approximation

ICML 2024arXiv

citations

Improving Large Language Model Planning with Action Sequence Similarity

ICLR 2025arXiv

citations

Ordering-based Conditions for Global Convergence of Policy Gradient Methods

NEURIPS 2023arXiv

citations

Managing Temporal Resolution in Continuous Value Estimation: A Fundamental Trade-off

NEURIPS 2023arXiv

citations

Escaping the Gravitational Pull of Softmax

NEURIPS 2020

citations

Position: Video as the New Language for Real-World Decision Making

ICML 2024

citations

DISCS: A Benchmark for Discrete Sampling

NEURIPS 2023

citations

The World Is Bigger: A Computationally-Embedded Perspective on the Big World Hypothesis

NEURIPS 2025arXiv

citations

Dale Schuurmans

papers (24)

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

Learning Universal Policies via Text-Guided Video Generation

Off-Policy Evaluation via the Regularized Lagrangian

Combiner: Full Attention Transformer with Sparse Computation Cost

CoinDICE: Off-Policy Confidence Interval Estimation

Chain of Thought Imitation with Procedure Cloning

Learning Discrete Energy-based Models via Auxiliary-variable Local Exploration

The Role of Baselines in Policy Gradient Optimization

On the Global Convergence Rates of Decentralized Softmax Gradient Play in Markov Potential Games

Understanding the Effect of Stochasticity in Policy Optimization

Toward Understanding In-context vs. In-weight Learning

Optimal Scaling for Locally Balanced Proposals in Discrete Spaces

A Maximum-Entropy Approach to Off-Policy Evaluation in Average-Reward MDPs

Plastic Learning with Deep Fourier Features

A Simple Decentralized Cross-Entropy Method

Provable Representation with Efficient Planning for Partially Observable Reinforcement Learning

Target Networks and Over-parameterization Stabilize Off-policy Bootstrapping with Function Approximation

Improving Large Language Model Planning with Action Sequence Similarity

Ordering-based Conditions for Global Convergence of Policy Gradient Methods

Managing Temporal Resolution in Continuous Value Estimation: A Fundamental Trade-off

Escaping the Gravitational Pull of Softmax

Position: Video as the New Language for Real-World Decision Making

DISCS: A Benchmark for Discrete Sampling

The World Is Bigger: A Computationally-Embedded Perspective on the Big World Hypothesis

papers (24)

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

Learning Universal Policies via Text-Guided Video Generation

Off-Policy Evaluation via the Regularized Lagrangian

Combiner: Full Attention Transformer with Sparse Computation Cost

CoinDICE: Off-Policy Confidence Interval Estimation

Chain of Thought Imitation with Procedure Cloning

Learning Discrete Energy-based Models via Auxiliary-variable Local Exploration

The Role of Baselines in Policy Gradient Optimization

On the Global Convergence Rates of Decentralized Softmax Gradient Play in Markov Potential Games

Understanding the Effect of Stochasticity in Policy Optimization

Toward Understanding In-context vs. In-weight Learning

Optimal Scaling for Locally Balanced Proposals in Discrete Spaces

A Maximum-Entropy Approach to Off-Policy Evaluation in Average-Reward MDPs

Plastic Learning with Deep Fourier Features

A Simple Decentralized Cross-Entropy Method

Provable Representation with Efficient Planning for Partially Observable Reinforcement Learning

Target Networks and Over-parameterization Stabilize Off-policy Bootstrapping with Function Approximation

Improving Large Language Model Planning with Action Sequence Similarity

Ordering-based Conditions for Global Convergence of Policy Gradient Methods

Managing Temporal Resolution in Continuous Value Estimation: A Fundamental Trade-off

Escaping the Gravitational Pull of Softmax

Position: Video as the New Language for Real-World Decision Making

DISCS: A Benchmark for Discrete Sampling

The World Is Bigger: A Computationally-Embedded Perspective on the Big World Hypothesis