Yingya Zhang

papers

1,274

total citations

papers (22)

MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Action Recognition

CVPR 2023arXiv

citations

Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation

CVPR 2024arXiv

citations

A Recipe for Scaling up Text-to-Video Generation with Text-free Videos

CVPR 2024arXiv

citations

Revisiting Optimal Convergence Rate for Smooth and Non-convex Stochastic Decentralized Optimization

NEURIPS 2022arXiv

citations

Disentangling Spatial and Temporal Learning for Efficient Image-to-Video Transfer Learning

ICCV 2023arXiv

citations

AE-NeRF: Audio Enhanced Neural Radiance Field for Few Shot Talking Head Synthesis

AAAI 2024arXiv

citations

PersonalVideo: High ID-Fidelity Video Customization without Dynamic and Semantic Degradation

ICCV 2025arXiv

citations

FreeScale: Unleashing the Resolution of Diffusion Models via Tuning-Free Scale Fusion

ICCV 2025arXiv

citations

DreamRelation: Relation-Centric Video Customization

ICCV 2025arXiv

citations

Enlarging Instance-Specific and Class-Specific Information for Open-Set Action Recognition

CVPR 2023arXiv

citations

S^3D-NeRF: Single-Shot Speech-Driven Neural Radiance Field for High Fidelity Talking Head Synthesis

ECCV 2024arXiv

citations

FreeMask: Rethinking the Importance of Attention Masks for Zero-Shot Video Editing

AAAI 2025arXiv

citations

FaceComposer: A Unified Model for Versatile Facial Content Creation

NEURIPS 2023

citations

LipFormer: High-Fidelity and Generalizable Talking Face Generation With a Pre-Learned Facial Codebook

CVPR 2023

citations

Space-time Prompting for Video Class-incremental Learning

ICCV 2023

citations

Communication Efficient SGD via Gradient Sampling With Bayes Prior

CVPR 2021

citations

Yingya Zhang

papers (22)

VideoComposer: Compositional Video Synthesis with Motion Controllability

DreamVideo: Composing Your Dream Videos with Customized Subject and Motion

Timestep Embedding Tells: It's Time to Cache for Video Diffusion Model

InstructVideo: Instructing Video Diffusion Models with Human Feedback

DecentLaM: Decentralized Momentum SGD for Large-Batch Deep Training

RLIPv2: Fast Scaling of Relational Language-Image Pre-Training

MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Action Recognition

Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation

A Recipe for Scaling up Text-to-Video Generation with Text-free Videos

Revisiting Optimal Convergence Rate for Smooth and Non-convex Stochastic Decentralized Optimization

Disentangling Spatial and Temporal Learning for Efficient Image-to-Video Transfer Learning

AE-NeRF: Audio Enhanced Neural Radiance Field for Few Shot Talking Head Synthesis

PersonalVideo: High ID-Fidelity Video Customization without Dynamic and Semantic Degradation

FreeScale: Unleashing the Resolution of Diffusion Models via Tuning-Free Scale Fusion

DreamRelation: Relation-Centric Video Customization

Enlarging Instance-Specific and Class-Specific Information for Open-Set Action Recognition

S^3D-NeRF: Single-Shot Speech-Driven Neural Radiance Field for High Fidelity Talking Head Synthesis

FreeMask: Rethinking the Importance of Attention Masks for Zero-Shot Video Editing

FaceComposer: A Unified Model for Versatile Facial Content Creation

LipFormer: High-Fidelity and Generalizable Talking Face Generation With a Pre-Learned Facial Codebook

Space-time Prompting for Video Class-incremental Learning

Communication Efficient SGD via Gradient Sampling With Bayes Prior

papers (22)

VideoComposer: Compositional Video Synthesis with Motion Controllability

DreamVideo: Composing Your Dream Videos with Customized Subject and Motion

Timestep Embedding Tells: It's Time to Cache for Video Diffusion Model

InstructVideo: Instructing Video Diffusion Models with Human Feedback

DecentLaM: Decentralized Momentum SGD for Large-Batch Deep Training

RLIPv2: Fast Scaling of Relational Language-Image Pre-Training

MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Action Recognition

Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation

A Recipe for Scaling up Text-to-Video Generation with Text-free Videos

Revisiting Optimal Convergence Rate for Smooth and Non-convex Stochastic Decentralized Optimization

Disentangling Spatial and Temporal Learning for Efficient Image-to-Video Transfer Learning

AE-NeRF: Audio Enhanced Neural Radiance Field for Few Shot Talking Head Synthesis

PersonalVideo: High ID-Fidelity Video Customization without Dynamic and Semantic Degradation

FreeScale: Unleashing the Resolution of Diffusion Models via Tuning-Free Scale Fusion

DreamRelation: Relation-Centric Video Customization

Enlarging Instance-Specific and Class-Specific Information for Open-Set Action Recognition

S^3D-NeRF: Single-Shot Speech-Driven Neural Radiance Field for High Fidelity Talking Head Synthesis

FreeMask: Rethinking the Importance of Attention Masks for Zero-Shot Video Editing

FaceComposer: A Unified Model for Versatile Facial Content Creation

LipFormer: High-Fidelity and Generalizable Talking Face Generation With a Pre-Learned Facial Codebook

Space-time Prompting for Video Class-incremental Learning

Communication Efficient SGD via Gradient Sampling With Bayes Prior