Shih-Fu Chang

papers

3,187

total citations

papers (28)

VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text

NEURIPS 2021arXiv

689

citations

Language Models with Image Descriptors are Strong Few-Shot Video-Language Learners

NEURIPS 2022arXiv

164

citations

CLIP-Event: Connecting Text and Images With Event Structures

CVPR 2022arXiv

145

citations

Query Adaptive Few-Shot Object Detection With Heterogeneous Graph Convolutional Networks

ICCV 2021arXiv

131

citations

Learning To Recognize Procedural Activities With Distant Supervision

CVPR 2022arXiv

citations

Multimodal Clustering Networks for Self-Supervised Learning From Unlabeled Videos

ICCV 2021arXiv

citations

Partner-Assisted Learning for Few-Shot Image Classification

ICCV 2021arXiv

citations

Vx2Text: End-to-End Learning of Video-Based Text Generation From Multimodal Inputs

CVPR 2021arXiv

citations

Context-Gated Convolution

ECCV 2020arXiv

citations

DiGeo: Discriminative Geometry-Aware Learning for Generalized Few-Shot Object Detection

CVPR 2023arXiv

citations

Weakly Supervised Visual Semantic Parsing

CVPR 2020arXiv

citations

Learning Visual Representation from Modality-Shared Contrastive Language-Image Pre-training

ECCV 2022arXiv

citations

Supervised Masked Knowledge Distillation for Few-Shot Transformers

CVPR 2023arXiv

citations

Task-Adaptive Negative Envision for Few-Shot Open-Set Recognition

CVPR 2022arXiv

citations

Towards Fast Adaptation of Pretrained Contrastive Models for Multi-Channel Video-Language Retrieval

CVPR 2023arXiv

citations

MoDE: CLIP Data Experts via Clustering

CVPR 2024arXiv

citations

SCHEMA: State CHangEs MAtter for Procedure Planning in Instructional Videos

ICLR 2024arXiv

citations

Co-Grounding Networks With Semantic Attention for Referring Expression Comprehension in Videos

CVPR 2021arXiv

citations

What When and Where? Self-Supervised Spatio-Temporal Grounding in Untrimmed Multi-Action Videos from Narrated Instructions

CVPR 2024arXiv

citations

Fine-Grained Visual Entailment

ECCV 2022arXiv

citations

RAP: Retrieval-Augmented Planner for Adaptive Procedure Planning in Instructional Videos

ECCV 2024arXiv

citations

Learning to Learn Words from Visual Scenes

ECCV 2020arXiv

citations

Beyond Grounding: Extracting Fine-Grained Event Hierarchies across Modalities

AAAI 2024arXiv

citations

Few-Shot End-to-End Object Detection via Constantly Concentrated Encoding across Heads

ECCV 2022

citations

Shih-Fu Chang

papers (28)

VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text

Open-Vocabulary Object Detection Using Captions

Learning Visual Commonsense for Robust Scene Graph Generation

Bridging Knowledge Graphs to Generate Scene Graphs

Few-Shot Object Detection With Fully Cross-Transformer

Language Models with Image Descriptors are Strong Few-Shot Video-Language Learners

CLIP-Event: Connecting Text and Images With Event Structures

Query Adaptive Few-Shot Object Detection With Heterogeneous Graph Convolutional Networks

Learning To Recognize Procedural Activities With Distant Supervision

Multimodal Clustering Networks for Self-Supervised Learning From Unlabeled Videos

Partner-Assisted Learning for Few-Shot Image Classification

Vx2Text: End-to-End Learning of Video-Based Text Generation From Multimodal Inputs

Context-Gated Convolution

DiGeo: Discriminative Geometry-Aware Learning for Generalized Few-Shot Object Detection

Weakly Supervised Visual Semantic Parsing

Learning Visual Representation from Modality-Shared Contrastive Language-Image Pre-training

Supervised Masked Knowledge Distillation for Few-Shot Transformers

Task-Adaptive Negative Envision for Few-Shot Open-Set Recognition

Towards Fast Adaptation of Pretrained Contrastive Models for Multi-Channel Video-Language Retrieval

MoDE: CLIP Data Experts via Clustering

SCHEMA: State CHangEs MAtter for Procedure Planning in Instructional Videos

Co-Grounding Networks With Semantic Attention for Referring Expression Comprehension in Videos

What When and Where? Self-Supervised Spatio-Temporal Grounding in Untrimmed Multi-Action Videos from Narrated Instructions

Fine-Grained Visual Entailment

RAP: Retrieval-Augmented Planner for Adaptive Procedure Planning in Instructional Videos

Learning to Learn Words from Visual Scenes

Beyond Grounding: Extracting Fine-Grained Event Hierarchies across Modalities

Few-Shot End-to-End Object Detection via Constantly Concentrated Encoding across Heads

papers (28)

VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text

Open-Vocabulary Object Detection Using Captions

Learning Visual Commonsense for Robust Scene Graph Generation

Bridging Knowledge Graphs to Generate Scene Graphs

Few-Shot Object Detection With Fully Cross-Transformer

Language Models with Image Descriptors are Strong Few-Shot Video-Language Learners

CLIP-Event: Connecting Text and Images With Event Structures

Query Adaptive Few-Shot Object Detection With Heterogeneous Graph Convolutional Networks

Learning To Recognize Procedural Activities With Distant Supervision

Multimodal Clustering Networks for Self-Supervised Learning From Unlabeled Videos

Partner-Assisted Learning for Few-Shot Image Classification

Vx2Text: End-to-End Learning of Video-Based Text Generation From Multimodal Inputs

Context-Gated Convolution

DiGeo: Discriminative Geometry-Aware Learning for Generalized Few-Shot Object Detection

Weakly Supervised Visual Semantic Parsing

Learning Visual Representation from Modality-Shared Contrastive Language-Image Pre-training

Supervised Masked Knowledge Distillation for Few-Shot Transformers

Task-Adaptive Negative Envision for Few-Shot Open-Set Recognition

Towards Fast Adaptation of Pretrained Contrastive Models for Multi-Channel Video-Language Retrieval

MoDE: CLIP Data Experts via Clustering

SCHEMA: State CHangEs MAtter for Procedure Planning in Instructional Videos

Co-Grounding Networks With Semantic Attention for Referring Expression Comprehension in Videos

What When and Where? Self-Supervised Spatio-Temporal Grounding in Untrimmed Multi-Action Videos from Narrated Instructions

Fine-Grained Visual Entailment

RAP: Retrieval-Augmented Planner for Adaptive Procedure Planning in Instructional Videos

Learning to Learn Words from Visual Scenes

Beyond Grounding: Extracting Fine-Grained Event Hierarchies across Modalities

Few-Shot End-to-End Object Detection via Constantly Concentrated Encoding across Heads