Hilde Kuehne

Affiliations

Goethe University FrankfurtMIT-IBM Watson AI Lab

papers

889

total citations

papers (27)

Everything at Once - Multi-Modal Fusion Transformer for Video Retrieval

CVPR 2022arXiv

157

citations

Multimodal Clustering Networks for Self-Supervised Learning From Unlabeled Videos

ICCV 2021arXiv

citations

Grounding Everything: Emerging Localization Properties in Vision-Language Transformers

CVPR 2024arXiv

citations

Generalized and Incremental Few-Shot Learning by Explicit Learning and Calibration Without Forgetting

ICCV 2021arXiv

citations

Deep Differentiable Logic Gate Networks

NEURIPS 2022arXiv

citations

Unsupervised Domain Generalization by Learning a Bridge Across Domains

CVPR 2022arXiv

citations

MAtch, eXpand and Improve: Unsupervised Finetuning for Zero-Shot Action Recognition with Language Knowledge

ICCV 2023arXiv

citations

Video Test-Time Adaptation for Action Recognition

CVPR 2023arXiv

citations

Found a Reason for me? Weakly-supervised Grounded Visual Question Answering using Capsules

CVPR 2021arXiv

citations

LeGrad: An Explainability Method for Vision Transformers via Feature Formation Sensitivity

ICCV 2025arXiv

citations

Learning Situation Hyper-Graphs for Video Question Answering

CVPR 2023arXiv

citations

Learning by Sorting: Self-supervised Learning with Group Ordering Constraints

ICCV 2023arXiv

citations

Preserving Modality Structure Improves Multi-Modal Learning

ICCV 2023arXiv

citations

What When and Where? Self-Supervised Spatio-Temporal Grounding in Untrimmed Multi-Action Videos from Narrated Instructions

CVPR 2024arXiv

citations

Learning Human Action Recognition Representations Without Real Humans

NEURIPS 2023arXiv

citations

In-Style: Bridging Text and Uncurated Videos with Style Transfer for Text-Video Retrieval

ICCV 2023arXiv

citations

Weakly Supervised Grounding for VQA in Vision-Language Transformers

ECCV 2022arXiv

citations

Teaching VLMs to Localize Specific Objects from In-context Examples

ICCV 2025arXiv

citations

CAV-MAE Sync: Improving Contrastive Audio-Visual Mask Autoencoders via Fine-Grained Alignment

CVPR 2025arXiv

citations

Unbiasing through Textual Descriptions: Mitigating Representation Bias in Video Benchmarks

CVPR 2025arXiv

citations

VideoGEM: Training-free Action Grounding in Videos

CVPR 2025arXiv

citations

CycDA: Unsupervised Cycle Domain Adaptation to Learn from Image to Video

ECCV 2022

citations

How Transferable are Video Representations Based on Synthetic Data?

NEURIPS 2022

citations

Hilde Kuehne

Affiliations

papers (27)

Everything at Once - Multi-Modal Fusion Transformer for Video Retrieval

Multimodal Clustering Networks for Self-Supervised Learning From Unlabeled Videos

Grounding Everything: Emerging Localization Properties in Vision-Language Transformers

Generalized and Incremental Few-Shot Learning by Explicit Learning and Calibration Without Forgetting

Deep Differentiable Logic Gate Networks

Unsupervised Domain Generalization by Learning a Bridge Across Domains

MAtch, eXpand and Improve: Unsupervised Finetuning for Zero-Shot Action Recognition with Language Knowledge

Video Test-Time Adaptation for Action Recognition

Found a Reason for me? Weakly-supervised Grounded Visual Question Answering using Capsules

HowToCaption: Prompting LLMs to Transform Video Annotations at Scale

Learning with Algorithmic Supervision via Continuous Relaxations

Detector-Free Weakly Supervised Grounding by Separation

What a MESS: Multi-Domain Evaluation of Zero-Shot Semantic Segmentation

LeGrad: An Explainability Method for Vision Transformers via Feature Formation Sensitivity

Learning Situation Hyper-Graphs for Video Question Answering

Learning by Sorting: Self-supervised Learning with Group Ordering Constraints

Preserving Modality Structure Improves Multi-Modal Learning

What When and Where? Self-Supervised Spatio-Temporal Grounding in Untrimmed Multi-Action Videos from Narrated Instructions

Learning Human Action Recognition Representations Without Real Humans

In-Style: Bridging Text and Uncurated Videos with Style Transfer for Text-Video Retrieval

Weakly Supervised Grounding for VQA in Vision-Language Transformers

Teaching VLMs to Localize Specific Objects from In-context Examples

CAV-MAE Sync: Improving Contrastive Audio-Visual Mask Autoencoders via Fine-Grained Alignment

Unbiasing through Textual Descriptions: Mitigating Representation Bias in Video Benchmarks

VideoGEM: Training-free Action Grounding in Videos

CycDA: Unsupervised Cycle Domain Adaptation to Learn from Image to Video

How Transferable are Video Representations Based on Synthetic Data?

papers (27)

Everything at Once - Multi-Modal Fusion Transformer for Video Retrieval

Multimodal Clustering Networks for Self-Supervised Learning From Unlabeled Videos

Grounding Everything: Emerging Localization Properties in Vision-Language Transformers

Generalized and Incremental Few-Shot Learning by Explicit Learning and Calibration Without Forgetting

Deep Differentiable Logic Gate Networks

Unsupervised Domain Generalization by Learning a Bridge Across Domains

MAtch, eXpand and Improve: Unsupervised Finetuning for Zero-Shot Action Recognition with Language Knowledge

Video Test-Time Adaptation for Action Recognition

Found a Reason for me? Weakly-supervised Grounded Visual Question Answering using Capsules

HowToCaption: Prompting LLMs to Transform Video Annotations at Scale

Learning with Algorithmic Supervision via Continuous Relaxations

Detector-Free Weakly Supervised Grounding by Separation

What a MESS: Multi-Domain Evaluation of Zero-Shot Semantic Segmentation

LeGrad: An Explainability Method for Vision Transformers via Feature Formation Sensitivity

Learning Situation Hyper-Graphs for Video Question Answering

Learning by Sorting: Self-supervised Learning with Group Ordering Constraints

Preserving Modality Structure Improves Multi-Modal Learning

What When and Where? Self-Supervised Spatio-Temporal Grounding in Untrimmed Multi-Action Videos from Narrated Instructions

Learning Human Action Recognition Representations Without Real Humans

In-Style: Bridging Text and Uncurated Videos with Style Transfer for Text-Video Retrieval

Weakly Supervised Grounding for VQA in Vision-Language Transformers

Teaching VLMs to Localize Specific Objects from In-context Examples

CAV-MAE Sync: Improving Contrastive Audio-Visual Mask Autoencoders via Fine-Grained Alignment

Unbiasing through Textual Descriptions: Mitigating Representation Bias in Video Benchmarks

VideoGEM: Training-free Action Grounding in Videos

CycDA: Unsupervised Cycle Domain Adaptation to Learn from Image to Video

How Transferable are Video Representations Based on Synthetic Data?