Wen Sun

papers

1,062

total citations

papers (26)

Multi-Robot Collision Avoidance under Uncertainty with Probabilistic Safety Barrier Certificates

NEURIPS 2020arXiv

citations

Constrained episodic reinforcement learning in concave-convex and knapsack settings

NEURIPS 2020arXiv

citations

Learning To Detect Mobile Objects From LiDAR Scans Without Labels

CVPR 2022arXiv

citations

MobILE: Model-Based Imitation Learning From Observation Alone

NEURIPS 2021arXiv

citations

Provable Offline Preference-Based Reinforcement Learning

ICLR 2024arXiv

citations

Provably Efficient Reinforcement Learning in Partially Observable Dynamical Systems

NEURIPS 2022arXiv

citations

Making RL with Preference-based Feedback Efficient via Randomization

ICLR 2024arXiv

citations

Learning the Linear Quadratic Regulator from Nonlinear Observations

NEURIPS 2020arXiv

citations

The Benefits of Being Distributional: Small-Loss Bounds for Reinforcement Learning

NEURIPS 2023arXiv

citations

Future-Dependent Value-Based Off-Policy Evaluation in POMDPs

NEURIPS 2023arXiv

citations

Regressing the Relative Future: Efficient Policy Optimization for Multi-turn RLHF

ICLR 2025arXiv

citations

More Benefits of Being Distributional: Second-Order Bounds for Reinforcement Learning

ICML 2024arXiv

citations

Reward Finetuning for Faster and More Accurate Unsupervised Object Discovery

NEURIPS 2023arXiv

citations

Selective Sampling and Imitation Learning via Online Regression

NEURIPS 2023arXiv

citations

$Q\sharp$: Provably Optimal Distributional RL for LLM Post-Training

NEURIPS 2025arXiv

citations

Model-based RL as a Minimalist Approach to Horizon-Free and Second-Order Bounds

ICLR 2025arXiv

citations

Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage

NEURIPS 2023arXiv

citations

Offline Data Enhanced On-Policy Policy Gradient with Provable Guarantees

ICLR 2024arXiv

citations

Value-Guided Search for Efficient Chain-of-Thought Reasoning

NEURIPS 2025arXiv

citations

On Speeding Up Language Model Evaluation

ICLR 2025arXiv

citations

Computationally Efficient RL under Linear Bellman Completeness for Deterministic Dynamics

ICLR 2025arXiv

citations

Contextual Bandits and Imitation Learning with Preference-Based Active Queries

NEURIPS 2023arXiv

citations

Mitigating Covariate Shift in Imitation Learning via Offline Data With Partial Coverage

NEURIPS 2021

citations

Wen Sun

papers (26)

FLAMBE: Structural Complexity and Representation Learning of Low Rank MDPs

Information Theoretic Regret Bounds for Online Nonlinear Control

PC-PG: Policy Cover Directed Exploration for Provable Policy Gradient Learning

Multi-Robot Collision Avoidance under Uncertainty with Probabilistic Safety Barrier Certificates

Constrained episodic reinforcement learning in concave-convex and knapsack settings

Learning To Detect Mobile Objects From LiDAR Scans Without Labels

MobILE: Model-Based Imitation Learning From Observation Alone

Provable Offline Preference-Based Reinforcement Learning

Provably Efficient Reinforcement Learning in Partially Observable Dynamical Systems

Making RL with Preference-based Feedback Efficient via Randomization

Learning the Linear Quadratic Regulator from Nonlinear Observations

The Benefits of Being Distributional: Small-Loss Bounds for Reinforcement Learning

Future-Dependent Value-Based Off-Policy Evaluation in POMDPs

Regressing the Relative Future: Efficient Policy Optimization for Multi-turn RLHF

More Benefits of Being Distributional: Second-Order Bounds for Reinforcement Learning

Reward Finetuning for Faster and More Accurate Unsupervised Object Discovery

Selective Sampling and Imitation Learning via Online Regression

$Q\sharp$: Provably Optimal Distributional RL for LLM Post-Training

Model-based RL as a Minimalist Approach to Horizon-Free and Second-Order Bounds

Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage

Offline Data Enhanced On-Policy Policy Gradient with Provable Guarantees

Value-Guided Search for Efficient Chain-of-Thought Reasoning

On Speeding Up Language Model Evaluation

Computationally Efficient RL under Linear Bellman Completeness for Deterministic Dynamics

Contextual Bandits and Imitation Learning with Preference-Based Active Queries

Mitigating Covariate Shift in Imitation Learning via Offline Data With Partial Coverage

papers (26)

FLAMBE: Structural Complexity and Representation Learning of Low Rank MDPs

Information Theoretic Regret Bounds for Online Nonlinear Control

PC-PG: Policy Cover Directed Exploration for Provable Policy Gradient Learning

Multi-Robot Collision Avoidance under Uncertainty with Probabilistic Safety Barrier Certificates

Constrained episodic reinforcement learning in concave-convex and knapsack settings

Learning To Detect Mobile Objects From LiDAR Scans Without Labels

MobILE: Model-Based Imitation Learning From Observation Alone

Provable Offline Preference-Based Reinforcement Learning

Provably Efficient Reinforcement Learning in Partially Observable Dynamical Systems

Making RL with Preference-based Feedback Efficient via Randomization

Learning the Linear Quadratic Regulator from Nonlinear Observations

The Benefits of Being Distributional: Small-Loss Bounds for Reinforcement Learning

Future-Dependent Value-Based Off-Policy Evaluation in POMDPs

Regressing the Relative Future: Efficient Policy Optimization for Multi-turn RLHF

More Benefits of Being Distributional: Second-Order Bounds for Reinforcement Learning

Reward Finetuning for Faster and More Accurate Unsupervised Object Discovery

Selective Sampling and Imitation Learning via Online Regression

$Q\sharp$: Provably Optimal Distributional RL for LLM Post-Training

Model-based RL as a Minimalist Approach to Horizon-Free and Second-Order Bounds

Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage

Offline Data Enhanced On-Policy Policy Gradient with Provable Guarantees

Value-Guided Search for Efficient Chain-of-Thought Reasoning

On Speeding Up Language Model Evaluation

Computationally Efficient RL under Linear Bellman Completeness for Deterministic Dynamics

Contextual Bandits and Imitation Learning with Preference-Based Active Queries

Mitigating Covariate Shift in Imitation Learning via Offline Data With Partial Coverage