Anurag Arnab

papers

5,597

total citations

papers (29)

Anurag Arnab

papers (29)

ViViT: A Video Vision Transformer

Attention Bottlenecks for Multimodal Fusion

Simple Open-Vocabulary Object Detection with Vision Transformers

Multiview Transformers for Video Recognition

On Scaling Up a Multilingual Vision and Language Model

CAT-Seg: Cost Aggregation for Open-Vocabulary Semantic Segmentation

End-to-End Generative Pretraining for Multimodal Video Captioning

Dynamic Graph Message Passing Networks

Learning With Neighbor Consistency for Noisy Labels

Streaming Dense Video Captioning

Scenic: A JAX Library for Computer Vision Research and Beyond

UnLoc: A Unified Framework for Video Localization Tasks

Audiovisual Masked Autoencoders

Compressive Visual Representations

Unified Graph Structured Models for Video Understanding

VicTR: Video-conditioned Text Representations for Activity Recognition

Uncertainty-Aware Weakly Supervised Action Detection from Untrimmed Videos

Token Turing Machines

How Can Objects Help Action Recognition?

End-to-End Spatio-Temporal Action Localisation with Video Transformers

Time- Memory- and Parameter-Efficient Visual Adaptation

Flexible Frame Selection for Efficient Video Reasoning

Temporal Chain of Thought: Long-Video Understanding by Thinking in Frames

Dense Video Object Captioning from Disjoint Supervision

Does Visual Pretraining Help End-to-End Reasoning?

From Image to Video: An Empirical Study of Diffusion Representations

Principles of Visual Tokens for Efficient Video Understanding

Pixel-Aligned Language Model

TokenLearner: Adaptive Space-Time Tokenization for Videos

papers (29)

ViViT: A Video Vision Transformer

Attention Bottlenecks for Multimodal Fusion

Simple Open-Vocabulary Object Detection with Vision Transformers

Multiview Transformers for Video Recognition

On Scaling Up a Multilingual Vision and Language Model

CAT-Seg: Cost Aggregation for Open-Vocabulary Semantic Segmentation

End-to-End Generative Pretraining for Multimodal Video Captioning

Dynamic Graph Message Passing Networks

Learning With Neighbor Consistency for Noisy Labels

Streaming Dense Video Captioning

Scenic: A JAX Library for Computer Vision Research and Beyond

UnLoc: A Unified Framework for Video Localization Tasks

Audiovisual Masked Autoencoders

Compressive Visual Representations

Unified Graph Structured Models for Video Understanding

VicTR: Video-conditioned Text Representations for Activity Recognition

Uncertainty-Aware Weakly Supervised Action Detection from Untrimmed Videos

Token Turing Machines

How Can Objects Help Action Recognition?

End-to-End Spatio-Temporal Action Localisation with Video Transformers

Time- Memory- and Parameter-Efficient Visual Adaptation

Flexible Frame Selection for Efficient Video Reasoning

Temporal Chain of Thought: Long-Video Understanding by Thinking in Frames

Dense Video Object Captioning from Disjoint Supervision

Does Visual Pretraining Help End-to-End Reasoning?

From Image to Video: An Empirical Study of Diffusion Representations

Principles of Visual Tokens for Efficient Video Understanding

Pixel-Aligned Language Model

TokenLearner: Adaptive Space-Time Tokenization for Videos