Yuandong Tian

papers

2,503

total citations

papers (29)

GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection

ICML 2024arXiv

371

citations

Training Large Language Models to Reason in a Continuous Latent Space

COLM 2025arXiv

357

citations

FBNetV2: Differentiable Neural Architecture Search for Spatial and Channel Dimensions

CVPR 2020arXiv

321

citations

TravelPlanner: A Benchmark for Real-World Planning with Language Agents

ICML 2024arXiv

319

citations

MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases

ICML 2024arXiv

195

citations

Learning Search Space Partition for Black-box Optimization using Monte Carlo Tree Search

NEURIPS 2020arXiv

151

citations

AdvPrompter: Fast Adaptive Adversarial Prompting for LLMs

ICML 2025arXiv

132

citations

Scan and Snap: Understanding Training Dynamics and Token Composition in 1-layer Transformer

NEURIPS 2023arXiv

105

citations

FBNetV3: Joint Architecture-Recipe Search Using Predictor Pretraining

CVPR 2021arXiv

citations

On the Importance of Asymmetry for Siamese Representation Learning

CVPR 2022arXiv

citations

Token Assorted: Mixing Latent and Text Tokens for Improved Language Model Reasoning

ICML 2025arXiv

citations

MADE: Exploration via Maximizing Deviation from Explored Regions

NEURIPS 2021arXiv

citations

NaturalReasoning: Reasoning in the Wild with 2.8M Challenging Questions

NEURIPS 2025arXiv

citations

JoMA: Demystifying Multilayer Transformers via Joint Dynamics of MLP and Attention

ICLR 2024arXiv

citations

From Low Rank Gradient Subspace Stabilization to Low-Rank Weights: Observations, Theories, and Applications

ICML 2025arXiv

citations

Landscape Surrogate: Learning Decision Losses for Mathematical Optimization Under Partial Information

NEURIPS 2023arXiv

citations

LoCoCo: Dropping In Convolutions for Long Context Compression

ICML 2024arXiv

citations

Learning Space Partitions for Path Planning

NEURIPS 2021arXiv

citations

GenCO: Generating Diverse Designs with Combinatorial Constraints

ICML 2024arXiv

citations

Latent Execution for Neural Program Synthesis Beyond Domain-Specific Languages

NEURIPS 2021

citations

Param$\Delta$ for Direct Mixing: Post-Train Large Language Model At Zero Cost

ICLR 2025

citations

H2O: Heavy-Hitter Oracle for Efficient Generative Inference of Large Language Models

NEURIPS 2023

citations

NovelD: A Simple yet Effective Exploration Criterion

NEURIPS 2021

citations

Contrastive Predict-and-Search for Mixed Integer Linear Programs

ICML 2024

citations

Yuandong Tian

papers (29)

GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection

Training Large Language Models to Reason in a Continuous Latent Space

FBNetV2: Differentiable Neural Architecture Search for Spatial and Channel Dimensions

TravelPlanner: A Benchmark for Real-World Planning with Language Agents

MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases

Learning Search Space Partition for Black-box Optimization using Monte Carlo Tree Search

AdvPrompter: Fast Adaptive Adversarial Prompting for LLMs

Scan and Snap: Understanding Training Dynamics and Token Composition in 1-layer Transformer

FBNetV3: Joint Architecture-Recipe Search Using Predictor Pretraining

On the Importance of Asymmetry for Siamese Representation Learning

Token Assorted: Mixing Latent and Text Tokens for Improved Language Model Reasoning

MADE: Exploration via Maximizing Deviation from Explored Regions

NaturalReasoning: Reasoning in the Wild with 2.8M Challenging Questions

JoMA: Demystifying Multilayer Transformers via Joint Dynamics of MLP and Attention

Understanding Deep Contrastive Learning via Coordinate-wise Optimization

DreamShard: Generalizable Embedding Table Placement for Recommender Systems

FP-NAS: Fast Probabilistic Neural Architecture Search

Towards General-Purpose Model-Free Reinforcement Learning

Joint Policy Search for Multi-agent Collaboration with Imperfect Information

From Low Rank Gradient Subspace Stabilization to Low-Rank Weights: Observations, Theories, and Applications

Landscape Surrogate: Learning Decision Losses for Mathematical Optimization Under Partial Information

LoCoCo: Dropping In Convolutions for Long Context Compression

Learning Space Partitions for Path Planning

GenCO: Generating Diverse Designs with Combinatorial Constraints

Latent Execution for Neural Program Synthesis Beyond Domain-Specific Languages

Param$\Delta$ for Direct Mixing: Post-Train Large Language Model At Zero Cost

H2O: Heavy-Hitter Oracle for Efficient Generative Inference of Large Language Models

NovelD: A Simple yet Effective Exploration Criterion

Contrastive Predict-and-Search for Mixed Integer Linear Programs

papers (29)

GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection

Training Large Language Models to Reason in a Continuous Latent Space

FBNetV2: Differentiable Neural Architecture Search for Spatial and Channel Dimensions

TravelPlanner: A Benchmark for Real-World Planning with Language Agents

MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases

Learning Search Space Partition for Black-box Optimization using Monte Carlo Tree Search

AdvPrompter: Fast Adaptive Adversarial Prompting for LLMs

Scan and Snap: Understanding Training Dynamics and Token Composition in 1-layer Transformer

FBNetV3: Joint Architecture-Recipe Search Using Predictor Pretraining

On the Importance of Asymmetry for Siamese Representation Learning

Token Assorted: Mixing Latent and Text Tokens for Improved Language Model Reasoning

MADE: Exploration via Maximizing Deviation from Explored Regions

NaturalReasoning: Reasoning in the Wild with 2.8M Challenging Questions

JoMA: Demystifying Multilayer Transformers via Joint Dynamics of MLP and Attention

Understanding Deep Contrastive Learning via Coordinate-wise Optimization

DreamShard: Generalizable Embedding Table Placement for Recommender Systems

FP-NAS: Fast Probabilistic Neural Architecture Search

Towards General-Purpose Model-Free Reinforcement Learning

Joint Policy Search for Multi-agent Collaboration with Imperfect Information

From Low Rank Gradient Subspace Stabilization to Low-Rank Weights: Observations, Theories, and Applications

Landscape Surrogate: Learning Decision Losses for Mathematical Optimization Under Partial Information

LoCoCo: Dropping In Convolutions for Long Context Compression

Learning Space Partitions for Path Planning

GenCO: Generating Diverse Designs with Combinatorial Constraints

Latent Execution for Neural Program Synthesis Beyond Domain-Specific Languages

Param$\Delta$ for Direct Mixing: Post-Train Large Language Model At Zero Cost

H2O: Heavy-Hitter Oracle for Efficient Generative Inference of Large Language Models

NovelD: A Simple yet Effective Exploration Criterion

Contrastive Predict-and-Search for Mixed Integer Linear Programs