Chongjie Zhang

papers

610

total citations

papers (20)

Towards Understanding Cooperative Multi-Agent Q-Learning with Value Factorization

NEURIPS 2021arXiv

citations

Bridging Imagination and Reality for Model-Based Deep Reinforcement Learning

NEURIPS 2020arXiv

citations

Low-Rank Modular Reinforcement Learning via Muscle Synergy

NEURIPS 2022arXiv

citations

Unsupervised Behavior Extraction via Random Intent Priors

NEURIPS 2023arXiv

citations

Non-Linear Coordination Graphs

NEURIPS 2022arXiv

citations

Bayesian Design Principles for Offline-to-Online Reinforcement Learning

ICML 2024arXiv

citations

CUP: Critic-Guided Policy Reuse

NEURIPS 2022arXiv

citations

Leveraging Hyperbolic Embeddings for Coarse-to-Fine Robot Design

ICLR 2024arXiv

citations

Learning to Plan Before Answering: Self-Teaching LLMs to Learn Abstract Plans for Problem Solving

ICLR 2025arXiv

citations

Enhancing Decision-Making of Large Language Models via Actor-Critic

ICML 2025arXiv

citations

Planning, Fast and Slow: Online Reinforcement Learning with Action-Free Offline Data via Multiscale Planners

ICML 2024

citations

Model-Based Reinforcement Learning via Imagination with Derived Memory

NEURIPS 2021

citations

Conservative Offline Policy Adaptation in Multi-Agent Games

NEURIPS 2023

citations

LAPO: Latent-Variable Advantage-Weighted Policy Optimization for Offline Reinforcement Learning

NEURIPS 2022

citations

Safe Opponent-Exploitation Subgame Refinement

NEURIPS 2022

citations

On the Estimation Bias in Double Q-Learning

NEURIPS 2021arXiv

citations

Chongjie Zhang

papers (20)

Celebrating Diversity in Shared Multi-Agent Reinforcement Learning

Episodic Multi-agent Reinforcement Learning with Curiosity-driven Exploration

RORL: Robust Offline Reinforcement Learning via Conservative Smoothing

Offline Reinforcement Learning with Reverse Model-based Imagination

Towards Understanding Cooperative Multi-Agent Q-Learning with Value Factorization

Bridging Imagination and Reality for Model-Based Deep Reinforcement Learning

Low-Rank Modular Reinforcement Learning via Muscle Synergy

Unsupervised Behavior Extraction via Random Intent Priors

Non-Linear Coordination Graphs

Bayesian Design Principles for Offline-to-Online Reinforcement Learning

CUP: Critic-Guided Policy Reuse

Leveraging Hyperbolic Embeddings for Coarse-to-Fine Robot Design

Learning to Plan Before Answering: Self-Teaching LLMs to Learn Abstract Plans for Problem Solving

Enhancing Decision-Making of Large Language Models via Actor-Critic

Planning, Fast and Slow: Online Reinforcement Learning with Action-Free Offline Data via Multiscale Planners

Model-Based Reinforcement Learning via Imagination with Derived Memory

Conservative Offline Policy Adaptation in Multi-Agent Games

LAPO: Latent-Variable Advantage-Weighted Policy Optimization for Offline Reinforcement Learning

Safe Opponent-Exploitation Subgame Refinement

On the Estimation Bias in Double Q-Learning

papers (20)

Celebrating Diversity in Shared Multi-Agent Reinforcement Learning

Episodic Multi-agent Reinforcement Learning with Curiosity-driven Exploration

RORL: Robust Offline Reinforcement Learning via Conservative Smoothing

Offline Reinforcement Learning with Reverse Model-based Imagination

Towards Understanding Cooperative Multi-Agent Q-Learning with Value Factorization

Bridging Imagination and Reality for Model-Based Deep Reinforcement Learning

Low-Rank Modular Reinforcement Learning via Muscle Synergy

Unsupervised Behavior Extraction via Random Intent Priors

Non-Linear Coordination Graphs

Bayesian Design Principles for Offline-to-Online Reinforcement Learning

CUP: Critic-Guided Policy Reuse

Leveraging Hyperbolic Embeddings for Coarse-to-Fine Robot Design

Learning to Plan Before Answering: Self-Teaching LLMs to Learn Abstract Plans for Problem Solving

Enhancing Decision-Making of Large Language Models via Actor-Critic

Planning, Fast and Slow: Online Reinforcement Learning with Action-Free Offline Data via Multiscale Planners

Model-Based Reinforcement Learning via Imagination with Derived Memory

Conservative Offline Policy Adaptation in Multi-Agent Games

LAPO: Latent-Variable Advantage-Weighted Policy Optimization for Offline Reinforcement Learning

Safe Opponent-Exploitation Subgame Refinement

On the Estimation Bias in Double Q-Learning