Nan Jiang

Affiliations

The University of Chicago

papers

1,262

total citations

papers (26)

Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-constraint

ICML 2024arXiv

312

citations

Bellman-consistent Pessimism for Offline Reinforcement Learning

NEURIPS 2021arXiv

308

citations

Policy Finetuning: Bridging Sample-Efficient Offline and Online Reinforcement Learning

NEURIPS 2021arXiv

184

citations

Is attention required for ICL? Exploring the Relationship Between Model Architecture and In-Context Learning Ability

ICLR 2024arXiv

citations

Interaction-Grounded Learning with Action-Inclusive Feedback

NEURIPS 2022arXiv

citations

Beyond the Return: Off-policy Function Estimation under User-specified Error-measuring Distributions

NEURIPS 2022arXiv

citations

A Few Expert Queries Suffices for Sample-Efficient RL with Resets and Linear Value Approximation

NEURIPS 2022arXiv

citations

Racing Control Variable Genetic Programming for Symbolic Regression

AAAI 2024arXiv

citations

LATTE: Improving Latex Recognition for Tables and Formulae with Iterative Refinement

AAAI 2025arXiv

citations

Dynamic Motion Blending for Versatile Motion Editing

CVPR 2025arXiv

citations

Model Selection for Off-policy Evaluation: New Algorithms and Experimental Protocol

NEURIPS 2025arXiv

citations

Tiered Reinforcement Learning: Pessimism in the Face of Uncertainty and Constant Regret

NEURIPS 2022arXiv

citations

A Snapshot of Influence: A Local Data Attribution Framework for Online Reinforcement Learning

NEURIPS 2025arXiv

citations

Solving Satisfiability Modulo Counting for Symbolic and Statistical AI Integration with Provable Guarantees

AAAI 2024arXiv

citations

Active Symbolic Discovery of Ordinary Differential Equations via Phase Portrait Sketching

AAAI 2025arXiv

citations

When Counterpoint Meets Chinese Folk Melodies

NEURIPS 2020

citations

Nan Jiang

Affiliations

papers (26)

Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-constraint

Bellman-consistent Pessimism for Offline Reinforcement Learning

Policy Finetuning: Bridging Sample-Efficient Offline and Online Reinforcement Learning

Scaling Up Dynamic Human-Scene Interaction Modeling

Full-Body Articulated Human-Object Interaction

Towards Hyperparameter-free Policy Selection for Offline Reinforcement Learning

Adversarial Model for Offline Reinforcement Learning

On the Statistical Efficiency of Reward-Free Exploration in Non-Linear RL

Future-Dependent Value-Based Off-Policy Evaluation in POMDPs

F-HOI: Toward Fine-grained Semantic-Aligned 3D Human-Object Interactions

GameArena: Evaluating LLM Reasoning through Live Computer Games

Commit0: Library Generation from Scratch

Minimax Value Interval for Off-Policy Evaluation and Policy Optimization

Is attention required for ICL? Exploring the Relationship Between Model Architecture and In-Context Learning Ability

Interaction-Grounded Learning with Action-Inclusive Feedback

Beyond the Return: Off-policy Function Estimation under User-specified Error-measuring Distributions

A Few Expert Queries Suffices for Sample-Efficient RL with Resets and Linear Value Approximation

Racing Control Variable Genetic Programming for Symbolic Regression

LATTE: Improving Latex Recognition for Tables and Formulae with Iterative Refinement

Dynamic Motion Blending for Versatile Motion Editing

Model Selection for Off-policy Evaluation: New Algorithms and Experimental Protocol

Tiered Reinforcement Learning: Pessimism in the Face of Uncertainty and Constant Regret

A Snapshot of Influence: A Local Data Attribution Framework for Online Reinforcement Learning

Solving Satisfiability Modulo Counting for Symbolic and Statistical AI Integration with Provable Guarantees

Active Symbolic Discovery of Ordinary Differential Equations via Phase Portrait Sketching

When Counterpoint Meets Chinese Folk Melodies

papers (26)

Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-constraint

Bellman-consistent Pessimism for Offline Reinforcement Learning

Policy Finetuning: Bridging Sample-Efficient Offline and Online Reinforcement Learning

Scaling Up Dynamic Human-Scene Interaction Modeling

Full-Body Articulated Human-Object Interaction

Towards Hyperparameter-free Policy Selection for Offline Reinforcement Learning

Adversarial Model for Offline Reinforcement Learning

On the Statistical Efficiency of Reward-Free Exploration in Non-Linear RL

Future-Dependent Value-Based Off-Policy Evaluation in POMDPs

F-HOI: Toward Fine-grained Semantic-Aligned 3D Human-Object Interactions

GameArena: Evaluating LLM Reasoning through Live Computer Games

Commit0: Library Generation from Scratch

Minimax Value Interval for Off-Policy Evaluation and Policy Optimization

Is attention required for ICL? Exploring the Relationship Between Model Architecture and In-Context Learning Ability

Interaction-Grounded Learning with Action-Inclusive Feedback

Beyond the Return: Off-policy Function Estimation under User-specified Error-measuring Distributions

A Few Expert Queries Suffices for Sample-Efficient RL with Resets and Linear Value Approximation

Racing Control Variable Genetic Programming for Symbolic Regression

LATTE: Improving Latex Recognition for Tables and Formulae with Iterative Refinement

Dynamic Motion Blending for Versatile Motion Editing

Model Selection for Off-policy Evaluation: New Algorithms and Experimental Protocol

Tiered Reinforcement Learning: Pessimism in the Face of Uncertainty and Constant Regret

A Snapshot of Influence: A Local Data Attribution Framework for Online Reinforcement Learning

Solving Satisfiability Modulo Counting for Symbolic and Statistical AI Integration with Provable Guarantees

Active Symbolic Discovery of Ordinary Differential Equations via Phase Portrait Sketching

When Counterpoint Meets Chinese Folk Melodies