Siliang Tang

papers

1,242

total citations

papers (27)

NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models

ICML 2024arXiv

306

citations

AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea

CVPR 2025arXiv

135

citations

HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data

CVPR 2024arXiv

129

citations

Momentor: Advancing Video Large Language Model with Fine-Grained Temporal Reasoning

ICML 2024arXiv

104

citations

Fine-Grained Semantically Aligned Vision-Language Pre-Training

NEURIPS 2022arXiv

100

citations

Compositional Temporal Grounding With Structured Variational Cross-Graph Correspondence Learning

CVPR 2022arXiv

citations

Unsupervised Reinforcement Learning of Transferable Meta-Skills for Embodied Navigation

CVPR 2020arXiv

citations

HealthGPT: A Medical Large Vision-Language Model for Unifying Comprehension and Generation via Heterogeneous Knowledge Adaptation

ICML 2025arXiv

citations

Visually-Prompted Language Model for Fine-Grained Scene Graph Generation in an Open World

ICCV 2023arXiv

citations

Auto-Encoding Morph-Tokens for Multimodal LLM

ICML 2024arXiv

citations

Gradient-Regulated Meta-Prompt Learning for Generalizable Vision-Language Models

ICCV 2023arXiv

citations

Adaptive Hierarchical Graph Reasoning With Semantic Coherence for Video-and-Language Inference

ICCV 2021arXiv

citations

Learning in Imperfect Environment: Multi-Label Classification with Long-Tailed Distribution and Partial Labels

ICCV 2023arXiv

citations

Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens

CVPR 2025arXiv

citations

STEP: Enhancing Video-LLMs’ Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training

CVPR 2025arXiv

citations

Benchmarking Multimodal CoT Reward Model Stepwise by Visual Program

ICCV 2025arXiv

citations

Janus-Pro-R1: Advancing Collaborative Visual Comprehension and Generation via Reinforcement Learning

NEURIPS 2025arXiv

citations

Boosting Virtual Agent Learning and Reasoning: A Step-Wise, Multi-Dimensional, and Generalist Reward Model with Benchmark

ICML 2025arXiv

citations

Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining

ICCV 2025arXiv

citations

What Limits Virtual Agent Application? OmniBench: A Scalable Multi-Dimensional Benchmark for Essential Virtual Agent Capabilities

ICML 2025arXiv

citations

Mastering Collaborative Multi-modal Data Selection: A Focus on Informativeness, Uniqueness, and Representativeness

ICCV 2025arXiv

citations

Data Shunt: Collaboration of Small and Large Models for Lower Costs and Better Performance

AAAI 2024

citations

Learning To Learn by Jointly Optimizing Neural Architecture and Weights

CVPR 2022

citations

Learning to Generate Visual Questions with Noisy Supervision

NEURIPS 2021

citations

Semi-Supervised Active Learning for Semi-Supervised Models: Exploit Adversarial Examples With Graph-Based Virtual Labels

ICCV 2021

citations

DIEM: Decomposition-Integration Enhancing Multimodal Insights

CVPR 2024

citations

The Best of Both Worlds: Integrating Language Models and Diffusion Models for Video Generation

ICCV 2025arXiv

citations