Chenjia Bai

Affiliations

Institute of AI, ChinaTelecom

papers

496

total citations

papers (18)

Diffusion Model is an Effective Planner and Data Synthesizer for Multi-Task Reinforcement Learning

NEURIPS 2023arXiv

138

citations

RORL: Robust Offline Reinforcement Learning via Conservative Smoothing

NEURIPS 2022arXiv

105

citations

KungfuBot: Physics-Based Humanoid Whole-Body Control for Learning Highly-Dynamic Skills

NEURIPS 2025arXiv

citations

Dynamic Bottleneck for Robust Self-Supervised Exploration

NEURIPS 2021arXiv

citations

Cross-Domain Policy Adaptation via Value-Guided Data Filtering

NEURIPS 2023arXiv

citations

SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation

ICML 2024arXiv

citations

OVD-Explorer: Optimism Should Not Be the Sole Pursuit of Exploration in Noisy Environments

AAAI 2024arXiv

citations

Radiology Report Generation via Multi-objective Preference Optimization

AAAI 2025arXiv

citations

Contrastive Representation for Data Filtering in Cross-Domain Offline Reinforcement Learning

ICML 2024arXiv

citations

Forward KL Regularized Preference Optimization for Aligning Diffusion Policies

AAAI 2025arXiv

citations

Constrained Ensemble Exploration for Unsupervised Skill Discovery

ICML 2024arXiv

citations

HumanoidGen: Data Generation for Bimanual Dexterous Manipulation via LLM Reasoning

NEURIPS 2025arXiv

citations

Task-Agnostic Pre-training and Task-Guided Fine-tuning for Versatile Diffusion Planner

ICML 2025arXiv

citations

Information-Theoretic Reward Decomposition for Generalizable RLHF

NEURIPS 2025arXiv

citations

How Does Goal Relabeling Improve Sample Efficiency?

ICML 2024

citations

Chenjia Bai

Affiliations

papers (18)

Diffusion Model is an Effective Planner and Data Synthesizer for Multi-Task Reinforcement Learning

RORL: Robust Offline Reinforcement Learning via Conservative Smoothing

KungfuBot: Physics-Based Humanoid Whole-Body Control for Learning Highly-Dynamic Skills

Dynamic Bottleneck for Robust Self-Supervised Exploration

Cross-Domain Policy Adaptation via Value-Guided Data Filtering

SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation

Cross-Domain Policy Adaptation by Capturing Representation Mismatch

Online Preference Alignment for Language Models via Count-based Exploration

Adversarial Locomotion and Motion Imitation for Humanoid Policy Learning

OVD-Explorer: Optimism Should Not Be the Sole Pursuit of Exploration in Noisy Environments

Radiology Report Generation via Multi-objective Preference Optimization

Contrastive Representation for Data Filtering in Cross-Domain Offline Reinforcement Learning

Forward KL Regularized Preference Optimization for Aligning Diffusion Policies

Constrained Ensemble Exploration for Unsupervised Skill Discovery

HumanoidGen: Data Generation for Bimanual Dexterous Manipulation via LLM Reasoning

Task-Agnostic Pre-training and Task-Guided Fine-tuning for Versatile Diffusion Planner

Information-Theoretic Reward Decomposition for Generalizable RLHF

How Does Goal Relabeling Improve Sample Efficiency?

papers (18)

Diffusion Model is an Effective Planner and Data Synthesizer for Multi-Task Reinforcement Learning

RORL: Robust Offline Reinforcement Learning via Conservative Smoothing

KungfuBot: Physics-Based Humanoid Whole-Body Control for Learning Highly-Dynamic Skills

Dynamic Bottleneck for Robust Self-Supervised Exploration

Cross-Domain Policy Adaptation via Value-Guided Data Filtering

SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation

Cross-Domain Policy Adaptation by Capturing Representation Mismatch

Online Preference Alignment for Language Models via Count-based Exploration

Adversarial Locomotion and Motion Imitation for Humanoid Policy Learning

OVD-Explorer: Optimism Should Not Be the Sole Pursuit of Exploration in Noisy Environments

Radiology Report Generation via Multi-objective Preference Optimization

Contrastive Representation for Data Filtering in Cross-Domain Offline Reinforcement Learning

Forward KL Regularized Preference Optimization for Aligning Diffusion Policies

Constrained Ensemble Exploration for Unsupervised Skill Discovery

HumanoidGen: Data Generation for Bimanual Dexterous Manipulation via LLM Reasoning

Task-Agnostic Pre-training and Task-Guided Fine-tuning for Versatile Diffusion Planner

Information-Theoretic Reward Decomposition for Generalizable RLHF

How Does Goal Relabeling Improve Sample Efficiency?