Arsha Nagrani

papers

4,082

total citations

papers (26)

Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval

ICCV 2021arXiv

1,472

citations

Attention Bottlenecks for Multimodal Fusion

NEURIPS 2021arXiv

721

citations

Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense Video Captioning

CVPR 2023arXiv

332

citations

TL;DW? Summarizing Instructional Videos with Task Relevance & Cross-Modal Saliency

ECCV 2022arXiv

citations

VidChapters-7M: Video Chapters at Scale

NEURIPS 2023arXiv

citations

VicTR: Video-conditioned Text Representations for Activity Recognition

CVPR 2024arXiv

citations

AutoAD III: The Prequel – Back to the Pixels

CVPR 2024arXiv

citations

Uncertainty-Aware Weakly Supervised Action Detection from Untrimmed Videos

ECCV 2020arXiv

citations

AVFormer: Injecting Vision Into Frozen Speech Models for Zero-Shot AV-ASR

CVPR 2023arXiv

citations

Composable Augmentation Encoding for Video Representation Learning

ICCV 2021arXiv

citations

MINERVA: Evaluating Complex Video Reasoning

ICCV 2025arXiv

citations

Flexible Frame Selection for Efficient Video Reasoning

CVPR 2025

citations

Shot-by-Shot: Film-Grammar-Aware Training-Free Audio Description Generation

ICCV 2025arXiv

citations

Unbiasing through Textual Descriptions: Mitigating Representation Bias in Video Benchmarks

CVPR 2025arXiv

citations

Arsha Nagrani

papers (26)

Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval

Attention Bottlenecks for Multimodal Fusion

Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense Video Captioning

On Scaling Up a Multilingual Vision and Language Model

Localizing Visual Sounds the Hard Way

End-to-End Generative Pretraining for Multimodal Video Captioning

Learning Audio-Video Modalities from Image Captions

Verbs in Action: Improving Verb Understanding in Video-Language Models

UnLoc: A Unified Framework for Video Localization Tasks

Streaming Dense Video Captioning

Look Before You Speak: Visually Contextualized Utterances

MoReVQA: Exploring Modular Reasoning Models for Video Question Answering

Speech2Action: Cross-Modal Supervision for Action Recognition

AutoAD: Movie Description in Context

AutoAD II: The Sequel - Who, When, and What in Movie Audio Description

TL;DW? Summarizing Instructional Videos with Task Relevance & Cross-Modal Saliency

VidChapters-7M: Video Chapters at Scale

VicTR: Video-conditioned Text Representations for Activity Recognition

AutoAD III: The Prequel – Back to the Pixels

Uncertainty-Aware Weakly Supervised Action Detection from Untrimmed Videos

AVFormer: Injecting Vision Into Frozen Speech Models for Zero-Shot AV-ASR

Composable Augmentation Encoding for Video Representation Learning

MINERVA: Evaluating Complex Video Reasoning

Flexible Frame Selection for Efficient Video Reasoning

Shot-by-Shot: Film-Grammar-Aware Training-Free Audio Description Generation

Unbiasing through Textual Descriptions: Mitigating Representation Bias in Video Benchmarks

papers (26)

Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval

Attention Bottlenecks for Multimodal Fusion

Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense Video Captioning

On Scaling Up a Multilingual Vision and Language Model

Localizing Visual Sounds the Hard Way

End-to-End Generative Pretraining for Multimodal Video Captioning

Learning Audio-Video Modalities from Image Captions

Verbs in Action: Improving Verb Understanding in Video-Language Models

UnLoc: A Unified Framework for Video Localization Tasks

Streaming Dense Video Captioning

Look Before You Speak: Visually Contextualized Utterances

MoReVQA: Exploring Modular Reasoning Models for Video Question Answering

Speech2Action: Cross-Modal Supervision for Action Recognition

AutoAD: Movie Description in Context

AutoAD II: The Sequel - Who, When, and What in Movie Audio Description

TL;DW? Summarizing Instructional Videos with Task Relevance & Cross-Modal Saliency

VidChapters-7M: Video Chapters at Scale

VicTR: Video-conditioned Text Representations for Activity Recognition

AutoAD III: The Prequel – Back to the Pixels

Uncertainty-Aware Weakly Supervised Action Detection from Untrimmed Videos

AVFormer: Injecting Vision Into Frozen Speech Models for Zero-Shot AV-ASR

Composable Augmentation Encoding for Video Representation Learning

MINERVA: Evaluating Complex Video Reasoning

Flexible Frame Selection for Efficient Video Reasoning

Shot-by-Shot: Film-Grammar-Aware Training-Free Audio Description Generation

Unbiasing through Textual Descriptions: Mitigating Representation Bias in Video Benchmarks