Haipeng Luo

OpenReview

papers

1,416

total citations

papers (26)

WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-Instruct

ICLR 2025arXiv

655

citations

Cap4Video: What Can Auxiliary Captions Do for Text-Video Retrieval?

CVPR 2023arXiv

149

citations

Bidirectional Cross-Modal Knowledge Exploration for Video Recognition With Pre-Trained Vision-Language Models

CVPR 2023arXiv

citations

Bias no more: high-probability data-dependent regret bounds for adversarial bandits and MDPs

NEURIPS 2020arXiv

citations

Simultaneously Learning Stochastic and Adversarial Episodic MDPs with Known Transition

NEURIPS 2020arXiv

citations

Last-iterate Convergence in Extensive-Form Games

NEURIPS 2021arXiv

citations

Policy Optimization in Adversarial MDPs: Improved Exploration via Dilated Bonuses

NEURIPS 2021arXiv

citations

The best of both worlds: stochastic and adversarial episodic MDPs with unknown transition

NEURIPS 2021arXiv

citations

Uncoupled Learning Dynamics with $O(\log T)$ Swap Regret in Multiplayer Games

NEURIPS 2022arXiv

citations

Near-Optimal No-Regret Learning Dynamics for General Convex Games

NEURIPS 2022arXiv

citations

Uncoupled and Convergent Learning in Two-Player Zero-Sum Markov Games with Bandit Feedback

NEURIPS 2023arXiv

citations

Implicit Finite-Horizon Approximation and Efficient Optimal Algorithms for Stochastic Shortest Path

NEURIPS 2021arXiv

citations

Near-Optimal Regret for Adversarial MDP with Delayed Bandit Feedback

NEURIPS 2022arXiv

citations

Improved Best-of-Both-Worlds Guarantees for Multi-Armed Bandits: FTRL with General Regularizers and Multiple Optimal Arms

NEURIPS 2023arXiv

citations

Follow-the-Perturbed-Leader for Adversarial Markov Decision Processes with Bandit Feedback

NEURIPS 2022arXiv

citations

Near-Optimal Goal-Oriented Reinforcement Learning in Non-Stationary Environments

NEURIPS 2022arXiv

citations

Comparator-Adaptive Convex Bandits

NEURIPS 2020arXiv

citations

Near-Optimal Regret in Linear MDPs with Aggregate Bandit Feedback

ICML 2024arXiv

citations

Efficient Contextual Bandits with Uninformed Feedback Graphs

ICML 2024arXiv

citations

Contextual Linear Bandits with Delay as Payoff

ICML 2025arXiv

citations

Improved Bounds for Swap Multicalibration and Swap Omniprediction

NEURIPS 2025arXiv

citations

ACPO: A Policy Optimization Algorithm for Average MDPs with Constraints

ICML 2024arXiv

citations

Improved Regret and Contextual Linear Extension for Pandora's Box and Prophet Inequality

NEURIPS 2025arXiv

citations

Haipeng Luo

papers (26)

WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-Instruct

Cap4Video: What Can Auxiliary Captions Do for Text-Video Retrieval?

Bidirectional Cross-Modal Knowledge Exploration for Video Recognition With Pre-Trained Vision-Language Models

Bias no more: high-probability data-dependent regret bounds for adversarial bandits and MDPs

Simultaneously Learning Stochastic and Adversarial Episodic MDPs with Known Transition

Last-iterate Convergence in Extensive-Form Games

Policy Optimization in Adversarial MDPs: Improved Exploration via Dilated Bonuses

The best of both worlds: stochastic and adversarial episodic MDPs with unknown transition

Uncoupled Learning Dynamics with $O(\log T)$ Swap Regret in Multiplayer Games

Near-Optimal No-Regret Learning Dynamics for General Convex Games

Uncoupled and Convergent Learning in Two-Player Zero-Sum Markov Games with Bandit Feedback

Implicit Finite-Horizon Approximation and Efficient Optimal Algorithms for Stochastic Shortest Path

Near-Optimal Regret for Adversarial MDP with Delayed Bandit Feedback

Improved Best-of-Both-Worlds Guarantees for Multi-Armed Bandits: FTRL with General Regularizers and Multiple Optimal Arms

Follow-the-Perturbed-Leader for Adversarial Markov Decision Processes with Bandit Feedback

Regret Matching+: (In)Stability and Fast Convergence in Games

No-Regret Online Reinforcement Learning with Adversarial Losses and Transitions

Practical Contextual Bandits with Feedback Graphs

Near-Optimal Goal-Oriented Reinforcement Learning in Non-Stationary Environments

Comparator-Adaptive Convex Bandits

Near-Optimal Regret in Linear MDPs with Aggregate Bandit Feedback

Efficient Contextual Bandits with Uninformed Feedback Graphs

Contextual Linear Bandits with Delay as Payoff

Improved Bounds for Swap Multicalibration and Swap Omniprediction

ACPO: A Policy Optimization Algorithm for Average MDPs with Constraints

Improved Regret and Contextual Linear Extension for Pandora's Box and Prophet Inequality

papers (26)

WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-Instruct

Cap4Video: What Can Auxiliary Captions Do for Text-Video Retrieval?

Bidirectional Cross-Modal Knowledge Exploration for Video Recognition With Pre-Trained Vision-Language Models

Bias no more: high-probability data-dependent regret bounds for adversarial bandits and MDPs

Simultaneously Learning Stochastic and Adversarial Episodic MDPs with Known Transition

Last-iterate Convergence in Extensive-Form Games

Policy Optimization in Adversarial MDPs: Improved Exploration via Dilated Bonuses

The best of both worlds: stochastic and adversarial episodic MDPs with unknown transition

Uncoupled Learning Dynamics with $O(\log T)$ Swap Regret in Multiplayer Games

Near-Optimal No-Regret Learning Dynamics for General Convex Games

Uncoupled and Convergent Learning in Two-Player Zero-Sum Markov Games with Bandit Feedback

Implicit Finite-Horizon Approximation and Efficient Optimal Algorithms for Stochastic Shortest Path

Near-Optimal Regret for Adversarial MDP with Delayed Bandit Feedback

Improved Best-of-Both-Worlds Guarantees for Multi-Armed Bandits: FTRL with General Regularizers and Multiple Optimal Arms

Follow-the-Perturbed-Leader for Adversarial Markov Decision Processes with Bandit Feedback

Regret Matching+: (In)Stability and Fast Convergence in Games

No-Regret Online Reinforcement Learning with Adversarial Losses and Transitions

Practical Contextual Bandits with Feedback Graphs

Near-Optimal Goal-Oriented Reinforcement Learning in Non-Stationary Environments

Comparator-Adaptive Convex Bandits

Near-Optimal Regret in Linear MDPs with Aggregate Bandit Feedback

Efficient Contextual Bandits with Uninformed Feedback Graphs

Contextual Linear Bandits with Delay as Payoff

Improved Bounds for Swap Multicalibration and Swap Omniprediction

ACPO: A Policy Optimization Algorithm for Average MDPs with Constraints

Improved Regret and Contextual Linear Extension for Pandora's Box and Prophet Inequality