Sanjiv Kumar

papers

1,263

total citations

papers (28)

O(n) Connections are Expressive Enough: Universal Approximability of Sparse Transformers

NEURIPS 2020arXiv

citations

Why are Adaptive Methods Good for Attention Models?

NEURIPS 2020arXiv

citations

Learning discrete distributions: user vs item-level privacy

NEURIPS 2020arXiv

citations

Two-stage LLM Fine-tuning with Less Specialization and More Generalization

ICLR 2024arXiv

citations

Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning?

ICML 2024arXiv

citations

Robust large-margin learning in hyperbolic space

NEURIPS 2020arXiv

citations

When Does Confidence-Based Cascade Deferral Suffice?

NEURIPS 2023arXiv

citations

Decoupled Context Processing for Context Augmented Language Modeling

NEURIPS 2022arXiv

citations

TPU-KNN: K Nearest Neighbor Search at Peak FLOP/s

NEURIPS 2022arXiv

citations

Faster Cascades via Speculative Decoding

ICLR 2025arXiv

citations

Multi-Stage Influence Function

NEURIPS 2020arXiv

citations

On student-teacher deviations in distillation: does it pay to disobey?

NEURIPS 2023arXiv

citations

SOAR: Improved Indexing for Approximate Nearest Neighbor Search

NEURIPS 2023arXiv

citations

LoRA Done RITE: Robust Invariant Transformation Equilibration for LoRA Optimization

ICLR 2025arXiv

citations

Tandem Transformers for Inference Efficient LLMs

ICML 2024arXiv

citations

ResMem: Learn what you can and memorize the rest

NEURIPS 2023arXiv

citations

Better autoregressive regression with LLMs via regression-aware fine-tuning

ICLR 2025

citations

Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines

ICML 2024arXiv

citations

Spark Transformer: Reactivating Sparsity in Transformer FFN and Attention

NEURIPS 2025

citations

Analyzing Similarity Metrics for Data Selection for Language Model Pretraining

NEURIPS 2025arXiv

citations

Efficient Training of Retrieval Models using Negative Cache

NEURIPS 2021

citations

MarkovGen: Structured Prediction for Efficient Text-to-Image Generation

CVPR 2024arXiv

citations

How Does Noise Help Robustness? Explanation and Exploration under the Neural SDE Framework

CVPR 2020

citations

Post-hoc estimators for learning to defer to an expert

NEURIPS 2022

citations

USTAD: Unified Single-model Training Achieving Diverse Scores for Information Retrieval

ICML 2024

citations

Sanjiv Kumar

papers (28)

Rethinking FID: Towards a Better Evaluation Metric for Image Generation

Think before you speak: Training Language Models With Pause Tokens

Batch Active Learning at Scale

O(n) Connections are Expressive Enough: Universal Approximability of Sparse Transformers

Why are Adaptive Methods Good for Attention Models?

Learning discrete distributions: user vs item-level privacy

Two-stage LLM Fine-tuning with Less Specialization and More Generalization

Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning?

Robust large-margin learning in hyperbolic space

When Does Confidence-Based Cascade Deferral Suffice?

Decoupled Context Processing for Context Augmented Language Modeling

TPU-KNN: K Nearest Neighbor Search at Peak FLOP/s

Faster Cascades via Speculative Decoding

Multi-Stage Influence Function

On student-teacher deviations in distillation: does it pay to disobey?

SOAR: Improved Indexing for Approximate Nearest Neighbor Search

LoRA Done RITE: Robust Invariant Transformation Equilibration for LoRA Optimization

Tandem Transformers for Inference Efficient LLMs

ResMem: Learn what you can and memorize the rest

Better autoregressive regression with LLMs via regression-aware fine-tuning

Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines

Spark Transformer: Reactivating Sparsity in Transformer FFN and Attention

Analyzing Similarity Metrics for Data Selection for Language Model Pretraining

Efficient Training of Retrieval Models using Negative Cache

MarkovGen: Structured Prediction for Efficient Text-to-Image Generation

How Does Noise Help Robustness? Explanation and Exploration under the Neural SDE Framework

Post-hoc estimators for learning to defer to an expert

USTAD: Unified Single-model Training Achieving Diverse Scores for Information Retrieval

papers (28)

Rethinking FID: Towards a Better Evaluation Metric for Image Generation

Think before you speak: Training Language Models With Pause Tokens

Batch Active Learning at Scale

O(n) Connections are Expressive Enough: Universal Approximability of Sparse Transformers

Why are Adaptive Methods Good for Attention Models?

Learning discrete distributions: user vs item-level privacy

Two-stage LLM Fine-tuning with Less Specialization and More Generalization

Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning?

Robust large-margin learning in hyperbolic space

When Does Confidence-Based Cascade Deferral Suffice?

Decoupled Context Processing for Context Augmented Language Modeling

TPU-KNN: K Nearest Neighbor Search at Peak FLOP/s

Faster Cascades via Speculative Decoding

Multi-Stage Influence Function

On student-teacher deviations in distillation: does it pay to disobey?

SOAR: Improved Indexing for Approximate Nearest Neighbor Search

LoRA Done RITE: Robust Invariant Transformation Equilibration for LoRA Optimization

Tandem Transformers for Inference Efficient LLMs

ResMem: Learn what you can and memorize the rest

Better autoregressive regression with LLMs via regression-aware fine-tuning

Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines

Spark Transformer: Reactivating Sparsity in Transformer FFN and Attention

Analyzing Similarity Metrics for Data Selection for Language Model Pretraining

Efficient Training of Retrieval Models using Negative Cache

MarkovGen: Structured Prediction for Efficient Text-to-Image Generation

How Does Noise Help Robustness? Explanation and Exploration under the Neural SDE Framework

Post-hoc estimators for learning to defer to an expert

USTAD: Unified Single-model Training Achieving Diverse Scores for Information Retrieval