Lorenzo Torresani

papers

3,560

total citations

papers (26)

Ego4D: Around the World in 3,000 Hours of Egocentric Video

CVPR 2022arXiv

1,511

citations

Self-Supervised Learning by Cross-Modal Audio-Video Clustering

NEURIPS 2020arXiv

462

citations

Ego-Exo4D: Understanding Skilled Human Activity from First- and Third-Person Perspectives

CVPR 2024arXiv

343

citations

Listen to Look: Action Recognition by Previewing Audio

CVPR 2020arXiv

285

citations

Classifying, Segmenting, and Tracking Object Instances in Video with Mask Propagation

CVPR 2020arXiv

191

citations

Vx2Text: End-to-End Learning of Video-Based Text Generation From Multimodal Inputs

CVPR 2021arXiv

citations

HierVL: Learning Hierarchical Video-Language Embeddings

CVPR 2023arXiv

citations

Long-Short Temporal Contrastive Learning of Video Transformers

CVPR 2022arXiv

citations

PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding

NEURIPS 2025arXiv

citations

Ego-Only: Egocentric Action Detection without Exocentric Transferring

ICCV 2023arXiv

citations

Deformable Video Transformer

CVPR 2022arXiv

citations

COBE: Contextualized Object Embeddings from Narrated Instructional Video

NEURIPS 2020arXiv

citations

Learning to Ground Instructional Articles in Videos through Narrations

ICCV 2023arXiv

citations

Beyond Short Clips: End-to-End Video-Level Learning With Collaborative Memories

CVPR 2021arXiv

citations

Egocentric Video Task Translation

CVPR 2023arXiv

citations

BIMBA: Selective-Scan Compression for Long-Range Video Question Answering

CVPR 2025arXiv

citations

Step Differences in Instructional Video

CVPR 2024arXiv

citations

VITED: Video Temporal Evidence Distillation

CVPR 2025arXiv

citations

Enrich and Detect: Video Temporal Grounding with Multimodal LLMs

ICCV 2025arXiv

citations

Ego4D Goal-Step: Toward Hierarchical Understanding of Procedural Activities

NEURIPS 2023

citations

HT-Step: Aligning Instructional Articles with How-To Videos

NEURIPS 2023

citations

Relational Space-Time Query in Long-Form Videos

CVPR 2023

citations

Learning to Segment Referred Objects from Narrated Egocentric Videos

CVPR 2024

citations

Lorenzo Torresani

papers (26)

Ego4D: Around the World in 3,000 Hours of Egocentric Video

Self-Supervised Learning by Cross-Modal Audio-Video Clustering

Ego-Exo4D: Understanding Skilled Human Activity from First- and Third-Person Perspectives

Listen to Look: Action Recognition by Previewing Audio

Classifying, Segmenting, and Tracking Object Instances in Video with Mask Propagation

Video Modeling With Correlation Networks

Learning To Recognize Procedural Activities With Distant Supervision

Video ReCap: Recursive Captioning of Hour-Long Videos

Vx2Text: End-to-End Learning of Video-Based Text Generation From Multimodal Inputs

HierVL: Learning Hierarchical Video-Language Embeddings

Long-Short Temporal Contrastive Learning of Video Transformers

PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding

Ego-Only: Egocentric Action Detection without Exocentric Transferring

Deformable Video Transformer

COBE: Contextualized Object Embeddings from Narrated Instructional Video

Learning to Ground Instructional Articles in Videos through Narrations

Beyond Short Clips: End-to-End Video-Level Learning With Collaborative Memories

Egocentric Video Task Translation

BIMBA: Selective-Scan Compression for Long-Range Video Question Answering

Step Differences in Instructional Video

VITED: Video Temporal Evidence Distillation

Enrich and Detect: Video Temporal Grounding with Multimodal LLMs

Ego4D Goal-Step: Toward Hierarchical Understanding of Procedural Activities

HT-Step: Aligning Instructional Articles with How-To Videos

Relational Space-Time Query in Long-Form Videos

Learning to Segment Referred Objects from Narrated Egocentric Videos

papers (26)

Ego4D: Around the World in 3,000 Hours of Egocentric Video

Self-Supervised Learning by Cross-Modal Audio-Video Clustering

Ego-Exo4D: Understanding Skilled Human Activity from First- and Third-Person Perspectives

Listen to Look: Action Recognition by Previewing Audio

Classifying, Segmenting, and Tracking Object Instances in Video with Mask Propagation

Video Modeling With Correlation Networks

Learning To Recognize Procedural Activities With Distant Supervision

Video ReCap: Recursive Captioning of Hour-Long Videos

Vx2Text: End-to-End Learning of Video-Based Text Generation From Multimodal Inputs

HierVL: Learning Hierarchical Video-Language Embeddings

Long-Short Temporal Contrastive Learning of Video Transformers

PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding

Ego-Only: Egocentric Action Detection without Exocentric Transferring

Deformable Video Transformer

COBE: Contextualized Object Embeddings from Narrated Instructional Video

Learning to Ground Instructional Articles in Videos through Narrations

Beyond Short Clips: End-to-End Video-Level Learning With Collaborative Memories

Egocentric Video Task Translation

BIMBA: Selective-Scan Compression for Long-Range Video Question Answering

Step Differences in Instructional Video

VITED: Video Temporal Evidence Distillation

Enrich and Detect: Video Temporal Grounding with Multimodal LLMs

Ego4D Goal-Step: Toward Hierarchical Understanding of Procedural Activities

HT-Step: Aligning Instructional Articles with How-To Videos

Relational Space-Time Query in Long-Form Videos

Learning to Segment Referred Objects from Narrated Egocentric Videos