"transformer efficiency" Papers

10 papers found

Filters:transformer efficiency Clear all

Conference

AAAI 2025 (3,028)COLM 2025 (418)CVPR 2025 (2,873)ICCV 2025 (2,701)ICLR 2025 (3,827)ICML 2025 (3,340)ISMAR 2025 (229)NEURIPS 2025 (5,858)AAAI 2024 (2,289)CVPR 2024 (2,716)ECCV 2024 (2,387)ICLR 2024 (2,297)ICML 2024 (2,635)

Paper Type

poster (24,624)paper (8,558)oral (1,594)spotlight (1,421)highlight (975)

Attribution-Driven Adaptive Token Pruning for Transformers

YAOYAO YAN, Hui Yu, Weizhi Xu

Degrees of Freedom for Linear Attention: Distilling Softmax Attention with Optimal Feature Efficiency

Naoki Nishikawa, Rei Higuchi, Taiji Suzuki

NEURIPS 2025arXiv:2507.03340

Delta Attention: Fast and Accurate Sparse Attention Inference by Delta Correction

Jeffrey Willette, Heejun Lee, Sung Ju Hwang

NEURIPS 2025arXiv:2505.11254

Dynamic Mixture of Experts: An Auto-Tuning Approach for Efficient Transformer Models

Yongxin Guo, Zhenglin Cheng, Xiaoying Tang et al.

ICLR 2025arXiv:2405.14297

FlashBias: Fast Computation of Attention with Bias

Haixu Wu, Minghao Guo, Yuezhou Ma et al.

NEURIPS 2025arXiv:2505.12044

Fourier Token Merging: Understanding and Capitalizing Frequency Domain for Efficient Image Generation

Jiesong Liu, Xipeng Shen

LevAttention: Time, Space and Streaming Efficient Algorithm for Heavy Attentions

Ravindran Kannan, Chiranjib Bhattacharyya, Praneeth Kacham et al.

ICLR 2025arXiv:2410.05462

ZeroS: Zero‑Sum Linear Attention for Efficient Transformers

Jiecheng Lu, Xu Han, Yan Sun et al.

NEURIPS 2025spotlightarXiv:2602.05230

DiJiang: Efficient Large Language Models through Compact Kernelization

Hanting Chen, Liuzhicheng Liuzhicheng, Xutao Wang et al.

ICML 2024arXiv:2403.19928

SLAB: Efficient Transformers with Simplified Linear Attention and Progressive Re-parameterized Batch Normalization

Jialong Guo, Xinghao Chen, Yehui Tang et al.

ICML 2024arXiv:2405.11582