Jianlong Fu

papers

5,647

total citations

papers (28)

Seeing Out of the Box: End-to-End Pre-Training for Vision-Language Representation Learning

CVPR 2021arXiv

303

citations

MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation

CVPR 2023arXiv

259

citations

Advancing High-Resolution Video-Language Representation With Large-Scale Video Transcriptions

CVPR 2022arXiv

254

citations

LightTrack: Finding Lightweight Neural Networks for Object Tracking via One-Shot Architecture Search

CVPR 2021arXiv

227

citations

MiniViT: Compressing Vision Transformers With Weight Multiplexing

CVPR 2022arXiv

158

citations

Zero-Reference Low-Light Enhancement via Physical Quadruple Priors

CVPR 2024arXiv

109

citations

Learning Trajectory-Aware Transformer for Video Super-Resolution

CVPR 2022arXiv

106

citations

Long-Form Video-Language Pre-Training with Multimodal Temporal Contrastive Learning

NEURIPS 2022arXiv

citations

Domain-Aware Universal Style Transfer

ICCV 2021arXiv

citations

Cream of the Crop: Distilling Prioritized Paths For One-Shot Neural Architecture Search

NEURIPS 2020arXiv

citations

Searching the Search Space of Vision Transformer

NEURIPS 2021arXiv

citations

Learning Conditional Knowledge Distillation for Degraded-Reference Image Quality Assessment

ICCV 2021arXiv

citations

Learning Spatiotemporal Frequency-Transformer for Compressed Video Super-Resolution

ECCV 2022arXiv

citations

Improving Visual Quality of Image Synthesis by A Token-based Generator with Transformers

NEURIPS 2021arXiv

citations

One-Shot Neural Ensemble Architecture Search by Diversity-Guided Search Space Shrinking

CVPR 2021arXiv

citations

GRIT-VLP: Grouped Mini-Batch Sampling for Efficient Vision and Language Pre-training

ECCV 2022arXiv

citations

SINC: Self-Supervised In-Context Learning for Vision-Language Tasks

ICCV 2023arXiv

citations

Learning Data-Driven Vector-Quantized Degradation Model for Animation Video Super-Resolution

ICCV 2023arXiv

citations

Improving Diversity in Zero-Shot GAN Adaptation with Semantic Variations

ICCV 2023arXiv

citations

Learning Semantic-aware Normalization for Generative Adversarial Networks

NEURIPS 2020

citations

Probing Inter-modality: Visual Parsing with Self-Attention for Vision-and-Language Pre-training

NEURIPS 2021

citations

Jianlong Fu

papers (28)

Learning Spatio-Temporal Transformer for Visual Tracking

Learning Texture Transformer Network for Image Super-Resolution

Expanding Language-Image Pretrained Models for General Video Recognition

TinyViT: Fast Pretraining Distillation for Small Vision Transformers

Rethinking and Improving Relative Position Encoding for Vision Transformer

Learning Joint Spatial-Temporal Transformations for Video Inpainting

AutoFormer: Searching Transformers for Visual Recognition

Seeing Out of the Box: End-to-End Pre-Training for Vision-Language Representation Learning

MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation

Advancing High-Resolution Video-Language Representation With Large-Scale Video Transcriptions

LightTrack: Finding Lightweight Neural Networks for Object Tracking via One-Shot Architecture Search

MiniViT: Compressing Vision Transformers With Weight Multiplexing

Zero-Reference Low-Light Enhancement via Physical Quadruple Priors

Learning Trajectory-Aware Transformer for Video Super-Resolution

Long-Form Video-Language Pre-Training with Multimodal Temporal Contrastive Learning

Domain-Aware Universal Style Transfer

Cream of the Crop: Distilling Prioritized Paths For One-Shot Neural Architecture Search

Searching the Search Space of Vision Transformer

Learning Conditional Knowledge Distillation for Degraded-Reference Image Quality Assessment

Learning Spatiotemporal Frequency-Transformer for Compressed Video Super-Resolution

Improving Visual Quality of Image Synthesis by A Token-based Generator with Transformers

One-Shot Neural Ensemble Architecture Search by Diversity-Guided Search Space Shrinking

GRIT-VLP: Grouped Mini-Batch Sampling for Efficient Vision and Language Pre-training

SINC: Self-Supervised In-Context Learning for Vision-Language Tasks

Learning Data-Driven Vector-Quantized Degradation Model for Animation Video Super-Resolution

Improving Diversity in Zero-Shot GAN Adaptation with Semantic Variations

Learning Semantic-aware Normalization for Generative Adversarial Networks

Probing Inter-modality: Visual Parsing with Self-Attention for Vision-and-Language Pre-training

papers (28)

Learning Spatio-Temporal Transformer for Visual Tracking

Learning Texture Transformer Network for Image Super-Resolution

Expanding Language-Image Pretrained Models for General Video Recognition

TinyViT: Fast Pretraining Distillation for Small Vision Transformers

Rethinking and Improving Relative Position Encoding for Vision Transformer

Learning Joint Spatial-Temporal Transformations for Video Inpainting

AutoFormer: Searching Transformers for Visual Recognition

Seeing Out of the Box: End-to-End Pre-Training for Vision-Language Representation Learning

MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation

Advancing High-Resolution Video-Language Representation With Large-Scale Video Transcriptions

LightTrack: Finding Lightweight Neural Networks for Object Tracking via One-Shot Architecture Search

MiniViT: Compressing Vision Transformers With Weight Multiplexing

Zero-Reference Low-Light Enhancement via Physical Quadruple Priors

Learning Trajectory-Aware Transformer for Video Super-Resolution

Long-Form Video-Language Pre-Training with Multimodal Temporal Contrastive Learning

Domain-Aware Universal Style Transfer

Cream of the Crop: Distilling Prioritized Paths For One-Shot Neural Architecture Search

Searching the Search Space of Vision Transformer

Learning Conditional Knowledge Distillation for Degraded-Reference Image Quality Assessment

Learning Spatiotemporal Frequency-Transformer for Compressed Video Super-Resolution

Improving Visual Quality of Image Synthesis by A Token-based Generator with Transformers

One-Shot Neural Ensemble Architecture Search by Diversity-Guided Search Space Shrinking

GRIT-VLP: Grouped Mini-Batch Sampling for Efficient Vision and Language Pre-training

SINC: Self-Supervised In-Context Learning for Vision-Language Tasks

Learning Data-Driven Vector-Quantized Degradation Model for Animation Video Super-Resolution

Improving Diversity in Zero-Shot GAN Adaptation with Semantic Variations

Learning Semantic-aware Normalization for Generative Adversarial Networks

Probing Inter-modality: Visual Parsing with Self-Attention for Vision-and-Language Pre-training