rleak.com - Spot the Future of AI Research

#1

U-KAN Makes Strong Backbone for Medical Image Segmentation and Generation

Chenxin Li, Xinyu Liu, Wuyang Li et al.

AAAI 2025

356

citations

#2

FigStep: Jailbreaking Large Vision-Language Models via Typographic Visual Prompts

Yichen Gong, Delong Ran, Jinyuan Liu et al.

AAAI 2025

302

citations

#3

EfficientVMamba: Atrous Selective Scan for Light Weight Visual Mamba

Xiaohuan Pei, Tao Huang, Chang Xu

AAAI 2025

192

citations

#4

EchoMimic: Lifelike Audio-Driven Portrait Animations through Editable Landmark Conditions

Zhiyuan Chen, Jiajiong Cao, Zhiquan Chen et al.

AAAI 2025

171

citations

#5

DriveDreamer-2: LLM-Enhanced World Models for Diverse Driving Video Generation

Guosheng Zhao, Xiaofeng Wang, Zheng Zhu et al.

AAAI 2025

146

citations

#6

Segment Any 3D Gaussians

Jiazhong Cen, Jiemin Fang, Chen Yang et al.

AAAI 2025

145

citations

#7

SatCLIP: Global, General-Purpose Location Embeddings with Satellite Imagery

Konstantin Klemmer, Esther Rolf, Caleb Robinson et al.

AAAI 2025

141

citations

#8

Language Prompt for Autonomous Driving

Dongming Wu, Wencheng Han, Yingfei Liu et al.

AAAI 2025

138

citations

#9

OOTDiffusion: Outfitting Fusion Based Latent Diffusion for Controllable Virtual Try-On

Yuhao Xu, Tao Gu, Weifeng Chen et al.

AAAI 2025

138

citations

#10

C3oT: Generating Shorter Chain-of-Thought Without Compromising Effectiveness

Yu Kang, Xianghui Sun, Liangyu Chen et al.

AAAI 2025

136

citations

#11

Pinwheel-shaped Convolution and Scale-based Dynamic Loss for Infrared Small Target Detection

Jiangnan Yang, Shuangli Liu, Jingjun Wu et al.

AAAI 2025

129

citations

#12

LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding

Senqiao Yang, Jiaming Liu, Renrui Zhang et al.

AAAI 2025

116

citations

#13

Cobra: Extending Mamba to Multi-Modal Large Language Model for Efficient Inference

Han Zhao, Min Zhang, Wei Zhao et al.

AAAI 2025

110

citations

#14

IMAGDressing-v1: Customizable Virtual Dressing

Fei Shen, Xin Jiang, Xin He et al.

AAAI 2025

107

citations

#15

TableBench: A Comprehensive and Complex Benchmark for Table Question Answering

Xianjie Wu, Jian Yang, Linzheng Chai et al.

AAAI 2025

105

citations

#16

TimeCMA: Towards LLM-Empowered Multivariate Time Series Forecasting via Cross-Modality Alignment

Chenxi Liu, Qianxiong Xu, Hao Miao et al.

AAAI 2025

100

citations

#17

CALF: Aligning LLMs for Time Series Forecasting via Cross-modal Fine-Tuning

Peiyuan Liu, Hang Guo, Tao Dai et al.

AAAI 2025

95

citations

#18

Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference

Zhihang Lin, Mingbao Lin, Luxi Lin et al.

AAAI 2025

90

citations

#19

AnalogCoder: Analog Circuit Design via Training-Free Code Generation

Yao Lai, Sungyoung Lee, Guojin Chen et al.

AAAI 2025

87

citations

#20

Point Cloud Mamba: Point Cloud Learning via State Space Model

Tao Zhang, Haobo Yuan, Lu Qi et al.

AAAI 2025

84

citations

AAAI

Top Papers in AAAI 2025

U-KAN Makes Strong Backbone for Medical Image Segmentation and Generation

FigStep: Jailbreaking Large Vision-Language Models via Typographic Visual Prompts

EfficientVMamba: Atrous Selective Scan for Light Weight Visual Mamba

EchoMimic: Lifelike Audio-Driven Portrait Animations through Editable Landmark Conditions

DriveDreamer-2: LLM-Enhanced World Models for Diverse Driving Video Generation

Segment Any 3D Gaussians

SatCLIP: Global, General-Purpose Location Embeddings with Satellite Imagery

Language Prompt for Autonomous Driving

OOTDiffusion: Outfitting Fusion Based Latent Diffusion for Controllable Virtual Try-On

C3oT: Generating Shorter Chain-of-Thought Without Compromising Effectiveness

Pinwheel-shaped Convolution and Scale-based Dynamic Loss for Infrared Small Target Detection

LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding

Cobra: Extending Mamba to Multi-Modal Large Language Model for Efficient Inference

IMAGDressing-v1: Customizable Virtual Dressing

TableBench: A Comprehensive and Complex Benchmark for Table Question Answering

TimeCMA: Towards LLM-Empowered Multivariate Time Series Forecasting via Cross-Modality Alignment

CALF: Aligning LLMs for Time Series Forecasting via Cross-modal Fine-Tuning

Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference

AnalogCoder: Analog Circuit Design via Training-Free Code Generation

Point Cloud Mamba: Point Cloud Learning via State Space Model