Weinan Zhang

papers

1,464

total citations

papers (23)

Diffusion Model is an Effective Planner and Data Synthesizer for Multi-Task Reinforcement Learning

NEURIPS 2023arXiv

138

citations

NeoRL: A Near Real-World Benchmark for Offline Reinforcement Learning

NEURIPS 2022arXiv

citations

Bootstrapped Transformer for Offline Reinforcement Learning

NEURIPS 2022arXiv

citations

ReMA: Learning to Meta-Think for LLMs with Multi-agent Reinforcement Learning

NEURIPS 2025arXiv

citations

Honor of Kings Arena: an Environment for Generalization in Competitive Reinforcement Learning

NEURIPS 2022arXiv

citations

PerfectDou: Dominating DouDizhu with Perfect Information Distillation

NEURIPS 2022arXiv

citations

DiffStitch: Boosting Offline Reinforcement Learning with Diffusion-based Trajectory Stitching

ICML 2024arXiv

citations

Model-based Policy Optimization with Unsupervised Model Adaptation

NEURIPS 2020arXiv

citations

On Effective Scheduling of Model-based Reinforcement Learning

NEURIPS 2021arXiv

citations

Reinforcement Learning with Automated Auxiliary Loss Search

NEURIPS 2022arXiv

citations

Lending Interaction Wings to Recommender Systems with Conversational Agents

NEURIPS 2023arXiv

citations

Efficient Projection-free Algorithms for Saddle Point Problems

NEURIPS 2020arXiv

citations

Learning Enhanced Representation for Tabular Data via Neighborhood Propagation

NEURIPS 2022arXiv

citations

GenPO: Generative Diffusion Models Meet On-Policy Reinforcement Learning

NEURIPS 2025arXiv

citations

Autonomous Goal Detection and Cessation in Reinforcement Learning: A Case Study on Source Term Estimation

AAAI 2025arXiv

citations

Score-Based Diffusion Policy Compatible with Reinforcement Learning via Optimal Transport

ICML 2025arXiv

citations

Beyond Graph Convolution: Multimodal Recommendation with Topology-aware MLPs

AAAI 2025arXiv

citations

Information-Theoretic Reward Decomposition for Generalizable RLHF

NEURIPS 2025arXiv

citations

ContraDiff: Planning Towards High Return States via Contrastive Learning

ICLR 2025

citations

Curriculum Offline Imitating Learning

NEURIPS 2021

citations

Weinan Zhang

papers (23)

Vision-Language Foundation Models as Effective Robot Imitators

AlphaZero-Like Tree-Search can Guide Large Language Model Decoding and Training

Multi-Agent Reinforcement Learning is a Sequence Modeling Problem

Diffusion Model is an Effective Planner and Data Synthesizer for Multi-Task Reinforcement Learning

NeoRL: A Near Real-World Benchmark for Offline Reinforcement Learning

Bootstrapped Transformer for Offline Reinforcement Learning

ReMA: Learning to Meta-Think for LLMs with Multi-agent Reinforcement Learning

Honor of Kings Arena: an Environment for Generalization in Competitive Reinforcement Learning

PerfectDou: Dominating DouDizhu with Perfect Information Distillation

DiffStitch: Boosting Offline Reinforcement Learning with Diffusion-based Trajectory Stitching

Model-based Policy Optimization with Unsupervised Model Adaptation

On Effective Scheduling of Model-based Reinforcement Learning

Reinforcement Learning with Automated Auxiliary Loss Search

Lending Interaction Wings to Recommender Systems with Conversational Agents

Efficient Projection-free Algorithms for Saddle Point Problems

Learning Enhanced Representation for Tabular Data via Neighborhood Propagation

GenPO: Generative Diffusion Models Meet On-Policy Reinforcement Learning

Autonomous Goal Detection and Cessation in Reinforcement Learning: A Case Study on Source Term Estimation

Score-Based Diffusion Policy Compatible with Reinforcement Learning via Optimal Transport

Beyond Graph Convolution: Multimodal Recommendation with Topology-aware MLPs

Information-Theoretic Reward Decomposition for Generalizable RLHF

ContraDiff: Planning Towards High Return States via Contrastive Learning

Curriculum Offline Imitating Learning

papers (23)

Vision-Language Foundation Models as Effective Robot Imitators

AlphaZero-Like Tree-Search can Guide Large Language Model Decoding and Training

Multi-Agent Reinforcement Learning is a Sequence Modeling Problem

Diffusion Model is an Effective Planner and Data Synthesizer for Multi-Task Reinforcement Learning

NeoRL: A Near Real-World Benchmark for Offline Reinforcement Learning

Bootstrapped Transformer for Offline Reinforcement Learning

ReMA: Learning to Meta-Think for LLMs with Multi-agent Reinforcement Learning

Honor of Kings Arena: an Environment for Generalization in Competitive Reinforcement Learning

PerfectDou: Dominating DouDizhu with Perfect Information Distillation

DiffStitch: Boosting Offline Reinforcement Learning with Diffusion-based Trajectory Stitching

Model-based Policy Optimization with Unsupervised Model Adaptation

On Effective Scheduling of Model-based Reinforcement Learning

Reinforcement Learning with Automated Auxiliary Loss Search

Lending Interaction Wings to Recommender Systems with Conversational Agents

Efficient Projection-free Algorithms for Saddle Point Problems

Learning Enhanced Representation for Tabular Data via Neighborhood Propagation

GenPO: Generative Diffusion Models Meet On-Policy Reinforcement Learning

Autonomous Goal Detection and Cessation in Reinforcement Learning: A Case Study on Source Term Estimation

Score-Based Diffusion Policy Compatible with Reinforcement Learning via Optimal Transport

Beyond Graph Convolution: Multimodal Recommendation with Topology-aware MLPs

Information-Theoretic Reward Decomposition for Generalizable RLHF

ContraDiff: Planning Towards High Return States via Contrastive Learning

Curriculum Offline Imitating Learning