Yiyi Zhou

papers

1,111

total citations

papers (22)

Multi-Task Collaborative Network for Joint Referring Expression Comprehension and Segmentation

CVPR 2020arXiv

352

citations

SeqTR: A Simple Yet Universal Network for Visual Grounding

ECCV 2022arXiv

212

citations

Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large Language Models

NEURIPS 2023arXiv

134

citations

Feast Your Eyes: Mixture-of-Resolution Adaptation for Multimodal Large Language Models

ICLR 2025arXiv

102

citations

Make Sharpness-Aware Minimization Stronger: A Sparsified Perturbation Approach

NEURIPS 2022arXiv

citations

Active Teacher for Semi-Supervised Object Detection

CVPR 2022arXiv

citations

Fit and Prune: Fast and Training-free Visual Token Pruning for Multi-modal Large Language Models

AAAI 2025arXiv

citations

Towards Efficient Diffusion-Based Image Editing with Instant Attention Masks

AAAI 2024arXiv

citations

What Kind of Visual Tokens Do We Need? Training-Free Visual Token Pruning for Multi-Modal Large Language Models from the Perspective of Graph

AAAI 2025arXiv

citations

Parameter and Computation Efficient Transfer Learning for Vision-Language Pre-trained Models

NEURIPS 2023arXiv

citations

Fast Text-to-3D-Aware Face Generation and Manipulation via Direct Cross-modal Mapping and Geometric Regularization

ICML 2024arXiv

citations

Routing Experts: Learning to Route Dynamic Experts in Existing Multi-modal Large Language Models

ICLR 2025

citations

PixelFolder: An Efficient Progressive Pixel Synthesis Network for Image Generation

ECCV 2022arXiv

citations

Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings

NEURIPS 2025arXiv

citations

FlashSloth : Lightning Multimodal Large Language Models via Embedded Visual Compression

CVPR 2025arXiv

citations

RefCLIP: A Universal Teacher for Weakly Supervised Referring Expression Comprehension

CVPR 2023

citations

RefTeacher: A Strong Baseline for Semi-Supervised Referring Expression Comprehension

CVPR 2023

citations

RSTNet: Captioning With Adaptive Attention on Visual and Non-Visual Words

CVPR 2021

citations

DViN: Dynamic Visual Routing Network for Weakly Supervised Referring Expression Comprehension

CVPR 2025

citations

Yiyi Zhou

papers (22)

Multi-Task Collaborative Network for Joint Referring Expression Comprehension and Segmentation

SeqTR: A Simple Yet Universal Network for Visual Grounding

Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large Language Models

Feast Your Eyes: Mixture-of-Resolution Adaptation for Multimodal Large Language Models

Make Sharpness-Aware Minimization Stronger: A Sparsified Perturbation Approach

Active Teacher for Semi-Supervised Object Detection

Fit and Prune: Fast and Training-free Visual Token Pruning for Multi-modal Large Language Models

Towards Efficient Diffusion-Based Image Editing with Instant Attention Masks

What Kind of Visual Tokens Do We Need? Training-Free Visual Token Pruning for Multi-Modal Large Language Models from the Perspective of Graph

Parameter and Computation Efficient Transfer Learning for Vision-Language Pre-trained Models

Fast Text-to-3D-Aware Face Generation and Manipulation via Direct Cross-modal Mapping and Geometric Regularization

Routing Experts: Learning to Route Dynamic Experts in Existing Multi-modal Large Language Models

PixelFolder: An Efficient Progressive Pixel Synthesis Network for Image Generation

Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings

FlashSloth : Lightning Multimodal Large Language Models via Embedded Visual Compression

SVFR: A Unified Framework for Generalized Video Face Restoration

DIFNet: Boosting Visual Information Flow for Image Captioning

TRAR: Routing the Attention Spans in Transformer for Visual Question Answering

RefCLIP: A Universal Teacher for Weakly Supervised Referring Expression Comprehension

RefTeacher: A Strong Baseline for Semi-Supervised Referring Expression Comprehension

RSTNet: Captioning With Adaptive Attention on Visual and Non-Visual Words

DViN: Dynamic Visual Routing Network for Weakly Supervised Referring Expression Comprehension

papers (22)

Multi-Task Collaborative Network for Joint Referring Expression Comprehension and Segmentation

SeqTR: A Simple Yet Universal Network for Visual Grounding

Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large Language Models

Feast Your Eyes: Mixture-of-Resolution Adaptation for Multimodal Large Language Models

Make Sharpness-Aware Minimization Stronger: A Sparsified Perturbation Approach

Active Teacher for Semi-Supervised Object Detection

Fit and Prune: Fast and Training-free Visual Token Pruning for Multi-modal Large Language Models

Towards Efficient Diffusion-Based Image Editing with Instant Attention Masks

What Kind of Visual Tokens Do We Need? Training-Free Visual Token Pruning for Multi-Modal Large Language Models from the Perspective of Graph

Parameter and Computation Efficient Transfer Learning for Vision-Language Pre-trained Models

Fast Text-to-3D-Aware Face Generation and Manipulation via Direct Cross-modal Mapping and Geometric Regularization

Routing Experts: Learning to Route Dynamic Experts in Existing Multi-modal Large Language Models

PixelFolder: An Efficient Progressive Pixel Synthesis Network for Image Generation

Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings

FlashSloth : Lightning Multimodal Large Language Models via Embedded Visual Compression

SVFR: A Unified Framework for Generalized Video Face Restoration

DIFNet: Boosting Visual Information Flow for Image Captioning

TRAR: Routing the Attention Spans in Transformer for Visual Question Answering

RefCLIP: A Universal Teacher for Weakly Supervised Referring Expression Comprehension

RefTeacher: A Strong Baseline for Semi-Supervised Referring Expression Comprehension

RSTNet: Captioning With Adaptive Attention on Visual and Non-Visual Words

DViN: Dynamic Visual Routing Network for Weakly Supervised Referring Expression Comprehension