rleak.com - Spot the Future of AI Research

#1

Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis

Chaoyou Fu, Yuhan Dai, Yongdong Luo et al.

CVPR 2025

917

citations

#2

VGGT: Visual Geometry Grounded Transformer

Jianyuan Wang, Minghao Chen, Nikita Karaev et al.

CVPR 2025

612

citations

#3

Structured 3D Latents for Scalable and Versatile 3D Generation

Jianfeng XIANG, Zelong Lv, Sicheng Xu et al.

CVPR 2025

434

citations

#4

Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces

Jihan Yang, Shusheng Yang, Anjali W. Gupta et al.

CVPR 2025

371

citations

#5

Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation

Chengyue Wu, Xiaokang Chen, Zhiyu Wu et al.

CVPR 2025

293

citations

#6

OmniGen: Unified Image Generation

Shitao Xiao, Yueze Wang, Junjie Zhou et al.

CVPR 2025

271

citations

#7

MambaVision: A Hybrid Mamba-Transformer Vision Backbone

Ali Hatamizadeh, Jan Kautz

CVPR 2025

264

citations

#8

Continuous 3D Perception Model with Persistent State

Qianqian Wang, Yifei Zhang, Aleksander Holynski et al.

CVPR 2025

250

citations

#9

CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models

Qingqing Zhao, Yao Lu, Moo Jin Kim et al.

CVPR 2025

245

citations

#10

Infinity∞: Scaling Bitwise AutoRegressive Modeling for High-Resolution Image Synthesis

Jian Han, Jinlai Liu, Yi Jiang et al.

CVPR 2025

201

citations

#11

MambaOut: Do We Really Need Mamba for Vision?

Weihao Yu, Xinchao Wang

CVPR 2025

193

citations

#12

Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models

Jingfeng Yao, Bin Yang, Xinggang Wang

CVPR 2025

184

citations

#13

Fast3R: Towards 3D Reconstruction of 1000+ Images in One Forward Pass

Jianing "Jed" Yang, Alexander Sax, Kevin Liang et al.

CVPR 2025

180

citations

#14

StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text

Roberto Henschel, Levon Khachatryan, Hayk Poghosyan et al.

CVPR 2025

164

citations

#15

DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving

Bencheng Liao, Shaoyu Chen, haoran yin et al.

CVPR 2025

164

citations

#16

MoGe: Unlocking Accurate Monocular Geometry Estimation for Open-Domain Images with Optimal Training Supervision

Ruicheng Wang, Sicheng Xu, Cassie Lee Dai et al.

CVPR 2025

162

citations

#17

DepthCrafter: Generating Consistent Long Depth Sequences for Open-world Videos

Wenbo Hu, Xiangjun Gao, Xiaoyu Li et al.

CVPR 2025

158

citations

#18

NVILA: Efficient Frontier Visual Language Models

Zhijian Liu, Ligeng Zhu, Baifeng Shi et al.

CVPR 2025

157

citations

#19

VideoTree: Adaptive Tree-based Video Representation for LLM Reasoning on Long Videos

Ziyang Wang, Shoubin Yu, Elias Stengel-Eskin et al.

CVPR 2025

156

citations

#20

Video-XL: Extra-Long Vision Language Model for Hour-Scale Video Understanding

Yan Shu, Zheng Liu, Peitian Zhang et al.

CVPR 2025

155

citations

CVPR

Top Papers in CVPR 2025

Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis

VGGT: Visual Geometry Grounded Transformer

Structured 3D Latents for Scalable and Versatile 3D Generation

Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces

Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation

OmniGen: Unified Image Generation

MambaVision: A Hybrid Mamba-Transformer Vision Backbone

Continuous 3D Perception Model with Persistent State

CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models

Infinity∞: Scaling Bitwise AutoRegressive Modeling for High-Resolution Image Synthesis

MambaOut: Do We Really Need Mamba for Vision?

Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models

Fast3R: Towards 3D Reconstruction of 1000+ Images in One Forward Pass

StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text

DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving

MoGe: Unlocking Accurate Monocular Geometry Estimation for Open-Domain Images with Optimal Training Supervision

DepthCrafter: Generating Consistent Long Depth Sequences for Open-world Videos

NVILA: Efficient Frontier Visual Language Models

VideoTree: Adaptive Tree-based Video Representation for LLM Reasoning on Long Videos

Video-XL: Extra-Long Vision Language Model for Hour-Scale Video Understanding