Zhongang Qi

papers

3,131

total citations

papers (20)

T2I-Adapter: Learning Adapters to Dig Out More Controllable Ability for Text-to-Image Diffusion

AAAI 2024arXiv

1,460

citations

MasaCtrl: Tuning-Free Mutual Self-Attention Control for Consistent Image Synthesis and Editing

ICCV 2023arXiv

698

citations

CustomCrafter: Customized Video Generation with Preserving Motion and Concept Composition Abilities

AAAI 2025arXiv

citations

Finding Discriminative Filters for Specific Degradations in Blind Super-Resolution

NEURIPS 2021arXiv

citations

EA-VTR: Event-Aware Video-Text Retrieval

ECCV 2024arXiv

citations

How to Make Cross Encoder a Good Teacher for Efficient Image-Text Retrieval?

CVPR 2024arXiv

citations

UniPixel: Unified Object Referring and Segmentation for Pixel-Level Visual Reasoning

NEURIPS 2025arXiv

citations

Mono2Stereo: A Benchmark and Empirical Study for Stereo Conversion

CVPR 2025arXiv

citations

DOGR: Towards Versatile Visual Document Grounding and Referring

ICCV 2025arXiv

citations

BTS: A Bi-Lingual Benchmark for Text Segmentation in the Wild

CVPR 2022

citations

ViLEM: Visual-Language Error Modeling for Image-Text Retrieval

CVPR 2023

citations

Exploiting Contextual Objects and Relations for 3D Visual Grounding

NEURIPS 2023

citations

Order-Prompted Tag Sequence Generation for Video Tagging

ICCV 2023

citations

Less is More: Empowering GUI Agent with Context-Aware Simplification

ICCV 2025arXiv

citations

VisionMath: Vision-Form Mathematical Problem-Solving

ICCV 2025

citations

Mamba-3VL: Taming State Space Model for 3D Vision Language Learning

ICCV 2025

citations

Zhongang Qi

papers (20)

T2I-Adapter: Learning Adapters to Dig Out More Controllable Ability for Text-to-Image Diffusion

MasaCtrl: Tuning-Free Mutual Self-Attention Control for Consistent Image Synthesis and Editing

PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding

LayoutDiffusion: Controllable Diffusion Model for Layout-to-Image Generation

Taming Rectified Flow for Inversion and Editing

Open-Book Video Captioning With Retrieve-Copy-Generate Network

CustomCrafter: Customized Video Generation with Preserving Motion and Concept Composition Abilities

Finding Discriminative Filters for Specific Degradations in Blind Super-Resolution

EA-VTR: Event-Aware Video-Text Retrieval

How to Make Cross Encoder a Good Teacher for Efficient Image-Text Retrieval?

UniPixel: Unified Object Referring and Segmentation for Pixel-Level Visual Reasoning

Mono2Stereo: A Benchmark and Empirical Study for Stereo Conversion

DOGR: Towards Versatile Visual Document Grounding and Referring

BTS: A Bi-Lingual Benchmark for Text Segmentation in the Wild

ViLEM: Visual-Language Error Modeling for Image-Text Retrieval

Exploiting Contextual Objects and Relations for 3D Visual Grounding

Order-Prompted Tag Sequence Generation for Video Tagging

Less is More: Empowering GUI Agent with Context-Aware Simplification

VisionMath: Vision-Form Mathematical Problem-Solving

Mamba-3VL: Taming State Space Model for 3D Vision Language Learning

papers (20)

T2I-Adapter: Learning Adapters to Dig Out More Controllable Ability for Text-to-Image Diffusion

MasaCtrl: Tuning-Free Mutual Self-Attention Control for Consistent Image Synthesis and Editing

PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding

LayoutDiffusion: Controllable Diffusion Model for Layout-to-Image Generation

Taming Rectified Flow for Inversion and Editing

Open-Book Video Captioning With Retrieve-Copy-Generate Network

CustomCrafter: Customized Video Generation with Preserving Motion and Concept Composition Abilities

Finding Discriminative Filters for Specific Degradations in Blind Super-Resolution

EA-VTR: Event-Aware Video-Text Retrieval

How to Make Cross Encoder a Good Teacher for Efficient Image-Text Retrieval?

UniPixel: Unified Object Referring and Segmentation for Pixel-Level Visual Reasoning

Mono2Stereo: A Benchmark and Empirical Study for Stereo Conversion

DOGR: Towards Versatile Visual Document Grounding and Referring

BTS: A Bi-Lingual Benchmark for Text Segmentation in the Wild

ViLEM: Visual-Language Error Modeling for Image-Text Retrieval

Exploiting Contextual Objects and Relations for 3D Visual Grounding

Order-Prompted Tag Sequence Generation for Video Tagging

Less is More: Empowering GUI Agent with Context-Aware Simplification

VisionMath: Vision-Form Mathematical Problem-Solving

Mamba-3VL: Taming State Space Model for 3D Vision Language Learning