Devi Parikh

papers

2,988

total citations

papers (19)

KRISP: Integrating Implicit and Symbolic Knowledge for Open-Domain Knowledge-Based VQA

CVPR 2021arXiv

231

citations

Large-scale Pretraining for Visual Dialog: A Simple State-of-the-Art Baseline

ECCV 2020arXiv

121

citations

Spatially Aware Multimodal Transformers for TextVQA

ECCV 2020arXiv

citations

Vx2Text: End-to-End Learning of Video-Based Text Generation From Multimodal Inputs

CVPR 2021arXiv

citations

Human-Adversarial Visual Question Answering

NEURIPS 2021arXiv

citations

Seeing the Un-Scene: Learning Amodal Semantic Maps for Room Navigation

ECCV 2020arXiv

citations

Make-An-Animation: Large-Scale Text-conditional 3D Human Motion Generation

ICCV 2023arXiv

citations

Episodic Memory Question Answering

CVPR 2022arXiv

citations

Video Editing via Factorized Diffusion Distillation

ECCV 2024arXiv

citations

MUGEN: A Playground for Video-Audio-Text Multimodal Understanding and GENeration

ECCV 2022arXiv

citations

Dialog without Dialog Data: Learning Visual Dialog Agents from VQA Data

NEURIPS 2020arXiv

citations

SQuINTing at VQA Models: Introspecting VQA Models With Sub-Questions

CVPR 2020arXiv

citations

Contrast and Classify: Training Robust VQA Models

ICCV 2021arXiv

citations

Devi Parikh

papers (19)

Make-a-Scene: Scene-Based Text-to-Image Generation with Human Priors

12-in-1: Multi-Task Vision and Language Representation Learning

Long Video Generation with Time-Agnostic VQGAN and Time-Sensitive Transformer

Improving Vision-and-Language Navigation with Image-Text Pairs from the Web

SpaText: Spatio-Textual Representation for Controllable Image Generation

Emu Edit: Precise Image Editing via Recognition and Generation Tasks

KRISP: Integrating Implicit and Symbolic Knowledge for Open-Domain Knowledge-Based VQA

Large-scale Pretraining for Visual Dialog: A Simple State-of-the-Art Baseline

Spatially Aware Multimodal Transformers for TextVQA

Vx2Text: End-to-End Learning of Video-Based Text Generation From Multimodal Inputs

Human-Adversarial Visual Question Answering

Seeing the Un-Scene: Learning Amodal Semantic Maps for Room Navigation

Make-An-Animation: Large-Scale Text-conditional 3D Human Motion Generation

Episodic Memory Question Answering

Video Editing via Factorized Diffusion Distillation

MUGEN: A Playground for Video-Audio-Text Multimodal Understanding and GENeration

Dialog without Dialog Data: Learning Visual Dialog Agents from VQA Data

SQuINTing at VQA Models: Introspecting VQA Models With Sub-Questions

Contrast and Classify: Training Robust VQA Models

papers (19)

Make-a-Scene: Scene-Based Text-to-Image Generation with Human Priors

12-in-1: Multi-Task Vision and Language Representation Learning

Long Video Generation with Time-Agnostic VQGAN and Time-Sensitive Transformer

Improving Vision-and-Language Navigation with Image-Text Pairs from the Web

SpaText: Spatio-Textual Representation for Controllable Image Generation

Emu Edit: Precise Image Editing via Recognition and Generation Tasks

KRISP: Integrating Implicit and Symbolic Knowledge for Open-Domain Knowledge-Based VQA

Large-scale Pretraining for Visual Dialog: A Simple State-of-the-Art Baseline

Spatially Aware Multimodal Transformers for TextVQA

Vx2Text: End-to-End Learning of Video-Based Text Generation From Multimodal Inputs

Human-Adversarial Visual Question Answering

Seeing the Un-Scene: Learning Amodal Semantic Maps for Room Navigation

Make-An-Animation: Large-Scale Text-conditional 3D Human Motion Generation

Episodic Memory Question Answering

Video Editing via Factorized Diffusion Distillation

MUGEN: A Playground for Video-Audio-Text Multimodal Understanding and GENeration

Dialog without Dialog Data: Learning Visual Dialog Agents from VQA Data

SQuINTing at VQA Models: Introspecting VQA Models With Sub-Questions

Contrast and Classify: Training Robust VQA Models