Michal Valko

Affiliations

Building something new @ Stealth Startup & Inria & MVA - Ex: Llama @AIatMeta Gemini and BYOL @GoogleDeepMind

papers

9,033

total citations

papers (20)

Drop, Swap, and Generate: A Self-Supervised Approach for Generating Neural Activity

NEURIPS 2021arXiv

citations

Statistical Efficiency of Thompson Sampling for Combinatorial Semi-Bandits

NEURIPS 2020arXiv

citations

Planning in Markov Decision Processes with Gap-Dependent Sample Complexity

NEURIPS 2020arXiv

citations

Stochastic Shortest Path: Minimax, Parameter-Free and Towards Horizon-Free Regret

NEURIPS 2021arXiv

citations

Sampling from a k-DPP without looking at all items

NEURIPS 2020arXiv

citations

A Provably Efficient Sample Collection Strategy for Reinforcement Learning

NEURIPS 2021arXiv

citations

Learning in two-player zero-sum partially observable Markov games with perfect recall

NEURIPS 2021arXiv

citations

Improved Sample Complexity for Incremental Autonomous Exploration in MDPs

NEURIPS 2020arXiv

citations

Optimistic Posterior Sampling for Reinforcement Learning with Few Samples and Tight Guarantees

NEURIPS 2022arXiv

citations

Unlocking the Power of Representations in Long-term Novelty-based Exploration

ICLR 2024arXiv

citations

Unifying Gradient Estimators for Meta-Reinforcement Learning via Off-Policy Evaluation

NEURIPS 2021arXiv

citations

Model-free Posterior Sampling via Learning Rate Randomization

NEURIPS 2023arXiv

citations

Demonstration-Regularized RL

ICLR 2024arXiv

citations

Michal Valko

Affiliations

papers (20)

Bootstrap Your Own Latent - A New Approach to Self-Supervised Learning

Nash Learning from Human Feedback

Generalized Preference Optimization: A Unified Approach to Offline Alignment

Broaden Your Views for Self-Supervised Video Learning

BYOL-Explore: Exploration by Bootstrapped Prediction

Human Alignment of Large Language Models through Online Preference Optimisation

Decoding-time Realignment of Language Models

Drop, Swap, and Generate: A Self-Supervised Approach for Generating Neural Activity

Statistical Efficiency of Thompson Sampling for Combinatorial Semi-Bandits

Planning in Markov Decision Processes with Gap-Dependent Sample Complexity

Stochastic Shortest Path: Minimax, Parameter-Free and Towards Horizon-Free Regret

Sampling from a k-DPP without looking at all items

A Provably Efficient Sample Collection Strategy for Reinforcement Learning

Learning in two-player zero-sum partially observable Markov games with perfect recall

Improved Sample Complexity for Incremental Autonomous Exploration in MDPs

Optimistic Posterior Sampling for Reinforcement Learning with Few Samples and Tight Guarantees

Unlocking the Power of Representations in Long-term Novelty-based Exploration

Unifying Gradient Estimators for Meta-Reinforcement Learning via Off-Policy Evaluation

Model-free Posterior Sampling via Learning Rate Randomization

Demonstration-Regularized RL

papers (20)

Bootstrap Your Own Latent - A New Approach to Self-Supervised Learning

Nash Learning from Human Feedback

Generalized Preference Optimization: A Unified Approach to Offline Alignment

Broaden Your Views for Self-Supervised Video Learning

BYOL-Explore: Exploration by Bootstrapped Prediction

Human Alignment of Large Language Models through Online Preference Optimisation

Decoding-time Realignment of Language Models

Drop, Swap, and Generate: A Self-Supervised Approach for Generating Neural Activity

Statistical Efficiency of Thompson Sampling for Combinatorial Semi-Bandits

Planning in Markov Decision Processes with Gap-Dependent Sample Complexity

Stochastic Shortest Path: Minimax, Parameter-Free and Towards Horizon-Free Regret

Sampling from a k-DPP without looking at all items

A Provably Efficient Sample Collection Strategy for Reinforcement Learning

Learning in two-player zero-sum partially observable Markov games with perfect recall

Improved Sample Complexity for Incremental Autonomous Exploration in MDPs

Optimistic Posterior Sampling for Reinforcement Learning with Few Samples and Tight Guarantees

Unlocking the Power of Representations in Long-term Novelty-based Exploration

Unifying Gradient Estimators for Meta-Reinforcement Learning via Off-Policy Evaluation

Model-free Posterior Sampling via Learning Rate Randomization

Demonstration-Regularized RL