Fan Zhang

OpenReview

papers

2,165

total citations

papers (29)

HiNeRV: Video Compression with Hierarchical Encoding-based Neural Representation

NEURIPS 2023arXiv

citations

Unsupervised Instance Segmentation in Microscopy Images via Panoptic Domain Adaptation and Task Re-Weighting

CVPR 2020arXiv

citations

HOT3D: Hand and Object Tracking in 3D from Egocentric Multi-View Videos

CVPR 2025arXiv

citations

ST-MFNet: A Spatio-Temporal Multi-Flow Network for Frame Interpolation

CVPR 2022arXiv

citations

LTGC: Long-tail Recognition via Leveraging LLMs-driven Generated Content

CVPR 2024arXiv

citations

Atlantis: Enabling Underwater Depth Estimation with Stable Diffusion

CVPR 2024arXiv

citations

MDCS: More Diverse Experts with Consistency Self-distillation for Long-tailed Recognition

ICCV 2023arXiv

citations

Distributionally Robust Local Non-parametric Conditional Estimation

NEURIPS 2020arXiv

citations

PNVC: Towards Practical INR-based Video Compression

AAAI 2025arXiv

citations

HIIF: Hierarchical Encoding based Implicit Image Function for Continuous Super-resolution

CVPR 2025arXiv

citations

UltraFusion: Ultra High Dynamic Imaging using Exposure Fusion

CVPR 2025arXiv

citations

ShotBench: Expert-Level Cinematic Understanding in Vision-Language Models

NEURIPS 2025arXiv

citations

SGTC: Semantic-Guided Triplet Co-training for Sparsely Annotated Semi-Supervised Medical Image Segmentation

AAAI 2025arXiv

citations

GIViC: Generative Implicit Video Compression

ICCV 2025arXiv

citations

Fine-grained Prototypical Voting with Heterogeneous Mixup for Semi-supervised 2D-3D Cross-modal Retrieval

CVPR 2024

citations

HumanSAM: Classifying Human-centric Forgery Videos in Human Spatial, Appearance, and Motion Anomaly

ICCV 2025arXiv

citations

Blind Video Super-Resolution based on Implicit Kernels

ICCV 2025arXiv

citations

CULTURE3D: A Large-Scale and Diverse Dataset of Cultural Landmarks and Terrains for Gaussian-Based Scene Rendering

ICCV 2025arXiv

citations

AdaptiveAE: An Adaptive Exposure Strategy for HDR Capturing in Dynamic Scenes

ICCV 2025arXiv

citations

Learning Temporal Consistency for Low Light Video Enhancement From Single Images

CVPR 2021

citations

Learning Rain Location Prior for Nighttime Deraining

ICCV 2023

citations

DREAM: Decoupled Discriminative Learning with Bigraph-aware Alignment for Semi-supervised 2D-3D Cross-modal Retrieval

AAAI 2025

citations

GauUpdate: New Object Insertion in 3D Gaussian Fields with Consistent Global Illumination

ICCV 2025

citations

OneGT: One-Shot Geometry-Texture Neural Rendering for Head Avatars

ICCV 2025

citations

Subspace Constraint and Contribution Estimation for Heterogeneous Federated Learning

CVPR 2025

citations

Fan Zhang

papers (29)

VBench: Comprehensive Benchmark Suite for Video Generative Models

Generative Multimodal Models are In-Context Learners

LDMVFI: Video Frame Interpolation with Latent Diffusion Models

CapsFusion: Rethinking Image-Text Data at Scale

HiNeRV: Video Compression with Hierarchical Encoding-based Neural Representation

Unsupervised Instance Segmentation in Microscopy Images via Panoptic Domain Adaptation and Task Re-Weighting

HOT3D: Hand and Object Tracking in 3D from Egocentric Multi-View Videos

ST-MFNet: A Spatio-Temporal Multi-Flow Network for Frame Interpolation

LTGC: Long-tail Recognition via Leveraging LLMs-driven Generated Content

Atlantis: Enabling Underwater Depth Estimation with Stable Diffusion

MDCS: More Diverse Experts with Consistency Self-distillation for Long-tailed Recognition

Distributionally Robust Local Non-parametric Conditional Estimation

PNVC: Towards Practical INR-based Video Compression

HIIF: Hierarchical Encoding based Implicit Image Function for Continuous Super-resolution

UltraFusion: Ultra High Dynamic Imaging using Exposure Fusion

ShotBench: Expert-Level Cinematic Understanding in Vision-Language Models

SGTC: Semantic-Guided Triplet Co-training for Sparsely Annotated Semi-Supervised Medical Image Segmentation

GIViC: Generative Implicit Video Compression

Fine-grained Prototypical Voting with Heterogeneous Mixup for Semi-supervised 2D-3D Cross-modal Retrieval

HumanSAM: Classifying Human-centric Forgery Videos in Human Spatial, Appearance, and Motion Anomaly

Blind Video Super-Resolution based on Implicit Kernels

CULTURE3D: A Large-Scale and Diverse Dataset of Cultural Landmarks and Terrains for Gaussian-Based Scene Rendering

AdaptiveAE: An Adaptive Exposure Strategy for HDR Capturing in Dynamic Scenes

Learning Temporal Consistency for Low Light Video Enhancement From Single Images

Learning Rain Location Prior for Nighttime Deraining

DREAM: Decoupled Discriminative Learning with Bigraph-aware Alignment for Semi-supervised 2D-3D Cross-modal Retrieval

GauUpdate: New Object Insertion in 3D Gaussian Fields with Consistent Global Illumination

OneGT: One-Shot Geometry-Texture Neural Rendering for Head Avatars

Subspace Constraint and Contribution Estimation for Heterogeneous Federated Learning

papers (29)

VBench: Comprehensive Benchmark Suite for Video Generative Models

Generative Multimodal Models are In-Context Learners

LDMVFI: Video Frame Interpolation with Latent Diffusion Models

CapsFusion: Rethinking Image-Text Data at Scale

HiNeRV: Video Compression with Hierarchical Encoding-based Neural Representation

Unsupervised Instance Segmentation in Microscopy Images via Panoptic Domain Adaptation and Task Re-Weighting

HOT3D: Hand and Object Tracking in 3D from Egocentric Multi-View Videos

ST-MFNet: A Spatio-Temporal Multi-Flow Network for Frame Interpolation

LTGC: Long-tail Recognition via Leveraging LLMs-driven Generated Content

Atlantis: Enabling Underwater Depth Estimation with Stable Diffusion

MDCS: More Diverse Experts with Consistency Self-distillation for Long-tailed Recognition

Distributionally Robust Local Non-parametric Conditional Estimation

PNVC: Towards Practical INR-based Video Compression

HIIF: Hierarchical Encoding based Implicit Image Function for Continuous Super-resolution

UltraFusion: Ultra High Dynamic Imaging using Exposure Fusion

ShotBench: Expert-Level Cinematic Understanding in Vision-Language Models

SGTC: Semantic-Guided Triplet Co-training for Sparsely Annotated Semi-Supervised Medical Image Segmentation

GIViC: Generative Implicit Video Compression

Fine-grained Prototypical Voting with Heterogeneous Mixup for Semi-supervised 2D-3D Cross-modal Retrieval

HumanSAM: Classifying Human-centric Forgery Videos in Human Spatial, Appearance, and Motion Anomaly

Blind Video Super-Resolution based on Implicit Kernels

CULTURE3D: A Large-Scale and Diverse Dataset of Cultural Landmarks and Terrains for Gaussian-Based Scene Rendering

AdaptiveAE: An Adaptive Exposure Strategy for HDR Capturing in Dynamic Scenes

Learning Temporal Consistency for Low Light Video Enhancement From Single Images

Learning Rain Location Prior for Nighttime Deraining

DREAM: Decoupled Discriminative Learning with Bigraph-aware Alignment for Semi-supervised 2D-3D Cross-modal Retrieval

GauUpdate: New Object Insertion in 3D Gaussian Fields with Consistent Global Illumination

OneGT: One-Shot Geometry-Texture Neural Rendering for Head Avatars

Subspace Constraint and Contribution Estimation for Heterogeneous Federated Learning