Qin Jin

papers

1,225

total citations

papers (16)

Fine-Grained Video-Text Retrieval With Hierarchical Graph Reasoning

CVPR 2020arXiv

361

citations

MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation

CVPR 2023arXiv

259

citations

Say As You Wish: Fine-Grained Control of Image Caption Generation With Abstract Scene Graphs

CVPR 2020arXiv

242

citations

Learning Descriptive Image Captioning via Semipermeable Maximum Likelihood Estimation

NEURIPS 2023arXiv

citations

Explore and Tell: Embodied Visual Captioning in 3D Environments

ICCV 2023arXiv

citations

Open-Category Human-Object Interaction Pre-Training via Language Modeling Framework

CVPR 2023

citations

VRDFormer: End-to-End Video Visual Relation Detection With Transformers

CVPR 2022

citations

MotionCtrl: A Real-time Controllable Vision-Language-Motion Model

ICCV 2025

citations

Multi-Lingual Acquisition on Multimodal Pre-training for Cross-modal Retrieval

NEURIPS 2022

citations

Few-Shot Action Recognition with Hierarchical Matching and Contrastive Learning

ECCV 2022

citations

Qin Jin

papers (16)

Fine-Grained Video-Text Retrieval With Hierarchical Graph Reasoning

MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation

Say As You Wish: Fine-Grained Control of Image Caption Generation With Abstract Scene Graphs

TS2-Net: Token Shift and Selection Transformer for Text-Video Retrieval

Time-R1: Post-Training Large Vision Language Model for Temporal Video Grounding

WritingBench: A Comprehensive Benchmark for Generative Writing

Towards Diverse Paragraph Captioning for Untrimmed Videos

Unifying Event Detection and Captioning as Sequence Generation via Pre-training

Better Captioning With Sequence-Level Exploration

Learning Descriptive Image Captioning via Semipermeable Maximum Likelihood Estimation

Explore and Tell: Embodied Visual Captioning in 3D Environments

Open-Category Human-Object Interaction Pre-Training via Language Modeling Framework

VRDFormer: End-to-End Video Visual Relation Detection With Transformers

MotionCtrl: A Real-time Controllable Vision-Language-Motion Model

Multi-Lingual Acquisition on Multimodal Pre-training for Cross-modal Retrieval

Few-Shot Action Recognition with Hierarchical Matching and Contrastive Learning

papers (16)

Fine-Grained Video-Text Retrieval With Hierarchical Graph Reasoning

MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation

Say As You Wish: Fine-Grained Control of Image Caption Generation With Abstract Scene Graphs

TS2-Net: Token Shift and Selection Transformer for Text-Video Retrieval

Time-R1: Post-Training Large Vision Language Model for Temporal Video Grounding

WritingBench: A Comprehensive Benchmark for Generative Writing

Towards Diverse Paragraph Captioning for Untrimmed Videos

Unifying Event Detection and Captioning as Sequence Generation via Pre-training

Better Captioning With Sequence-Level Exploration

Learning Descriptive Image Captioning via Semipermeable Maximum Likelihood Estimation

Explore and Tell: Embodied Visual Captioning in 3D Environments

Open-Category Human-Object Interaction Pre-Training via Language Modeling Framework

VRDFormer: End-to-End Video Visual Relation Detection With Transformers

MotionCtrl: A Real-time Controllable Vision-Language-Motion Model

Multi-Lingual Acquisition on Multimodal Pre-training for Cross-modal Retrieval

Few-Shot Action Recognition with Hierarchical Matching and Contrastive Learning