Zhiyuan Li

Affiliations

Toyota Technological Institute at Chicago

papers

1,085

total citations

papers (21)

DeFRCN: Decoupled Faster R-CNN for Few-Shot Object Detection

ICCV 2021arXiv

274

citations

Sophia: A Scalable Stochastic Second-order Optimizer for Language Model Pre-training

ICLR 2024arXiv

241

citations

On the Validity of Modeling SGD with Stochastic Differential Equations (SDEs)

NEURIPS 2021arXiv

citations

Understanding the Generalization Benefit of Normalization Layers: Sharpness Reduction

NEURIPS 2022arXiv

citations

Gradient Descent on Two-layer Nets: Margin Maximization and Simplicity Bias

NEURIPS 2021arXiv

citations

Reconciling Modern Deep Learning with Traditional Optimization Analyses: The Intrinsic Learning Rate

NEURIPS 2020arXiv

citations

Dichotomy of Early and Late Phase Implicit Biases Can Provably Induce Grokking

ICLR 2024arXiv

citations

Sharpness Minimization Algorithms Do Not Only Minimize Sharpness To Achieve Better Generalization

NEURIPS 2023arXiv

citations

Implicit Bias of Gradient Descent on Reparametrized Models: On Equivalence to Mirror Descent

NEURIPS 2022arXiv

citations

Find a Scapegoat: Poisoning Membership Inference Attack and Defense to Federated Learning

ICCV 2025arXiv

citations

Fast Mixing of Stochastic Gradient Descent with Normalization and Weight Decay

NEURIPS 2022

citations

What is the Inductive Bias of Flatness Regularization? A Study of Deep Matrix Factorization Models

NEURIPS 2023

citations

Implicit Bias of AdamW: $\ell_\infty$-Norm Constrained Optimization

ICML 2024

citations

Zhiyuan Li

Affiliations

papers (21)

DeFRCN: Decoupled Faster R-CNN for Few-Shot Object Detection

Sophia: A Scalable Stochastic Second-order Optimizer for Language Model Pre-training

On the Validity of Modeling SGD with Stochastic Differential Equations (SDEs)

Understanding the Generalization Benefit of Normalization Layers: Sharpness Reduction

Gradient Descent on Two-layer Nets: Margin Maximization and Simplicity Bias

Reconciling Modern Deep Learning with Traditional Optimization Analyses: The Intrinsic Learning Rate

Dichotomy of Early and Late Phase Implicit Biases Can Provably Induce Grokking

Sharpness Minimization Algorithms Do Not Only Minimize Sharpness To Achieve Better Generalization

Implicit Bias of Gradient Descent on Reparametrized Models: On Equivalence to Mirror Descent

Implicit Regularization and Convergence for Weight Normalization

Why Do You Grok? A Theoretical Analysis on Grokking Modular Addition

Structured Preconditioners in Adaptive Optimization: A Unified Analysis

PENCIL: Long Thoughts with Short Memory

Optimistic Multi-Agent Policy Gradient

AgentMixer: Multi-Agent Correlated Policy Factorization

Simplicity Bias via Global Convergence of Sharpness Minimization

Non-Asymptotic Length Generalization

Find a Scapegoat: Poisoning Membership Inference Attack and Defense to Federated Learning

Fast Mixing of Stochastic Gradient Descent with Normalization and Weight Decay

What is the Inductive Bias of Flatness Regularization? A Study of Deep Matrix Factorization Models

Implicit Bias of AdamW: $\ell_\infty$-Norm Constrained Optimization

papers (21)

DeFRCN: Decoupled Faster R-CNN for Few-Shot Object Detection

Sophia: A Scalable Stochastic Second-order Optimizer for Language Model Pre-training

On the Validity of Modeling SGD with Stochastic Differential Equations (SDEs)

Understanding the Generalization Benefit of Normalization Layers: Sharpness Reduction

Gradient Descent on Two-layer Nets: Margin Maximization and Simplicity Bias

Reconciling Modern Deep Learning with Traditional Optimization Analyses: The Intrinsic Learning Rate

Dichotomy of Early and Late Phase Implicit Biases Can Provably Induce Grokking

Sharpness Minimization Algorithms Do Not Only Minimize Sharpness To Achieve Better Generalization

Implicit Bias of Gradient Descent on Reparametrized Models: On Equivalence to Mirror Descent

Implicit Regularization and Convergence for Weight Normalization

Why Do You Grok? A Theoretical Analysis on Grokking Modular Addition

Structured Preconditioners in Adaptive Optimization: A Unified Analysis

PENCIL: Long Thoughts with Short Memory

Optimistic Multi-Agent Policy Gradient

AgentMixer: Multi-Agent Correlated Policy Factorization

Simplicity Bias via Global Convergence of Sharpness Minimization

Non-Asymptotic Length Generalization

Find a Scapegoat: Poisoning Membership Inference Attack and Defense to Federated Learning

Fast Mixing of Stochastic Gradient Descent with Normalization and Weight Decay

What is the Inductive Bias of Flatness Regularization? A Study of Deep Matrix Factorization Models

Implicit Bias of AdamW: $\ell_\infty$-Norm Constrained Optimization