Shou

papers

851

total citations

papers (15)

OmniConsistency: Learning Style-Agnostic Consistency from Paired Stylization Data

NEURIPS 2025arXiv

citations

GENIXER: Empowering Multimodal Large Language Models as a Powerful Data Generator

ECCV 2024arXiv

citations

Learning Video Context as Interleaved Multimodal Sequences

ECCV 2024arXiv

citations

DOTA: Distributional Test-time Adaptation of Vision-Language Models

NEURIPS 2025arXiv

citations

Bridging Information Asymmetry in Text-video Retrieval: A Data-centric Approach

ICLR 2025arXiv

citations

macOSWorld: A Multilingual Interactive Benchmark for GUI Agents

NEURIPS 2025arXiv

citations

Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models

NEURIPS 2025arXiv

citations

PANDA: Towards Generalist Video Anomaly Detection via Agentic AI Engineer

NEURIPS 2025arXiv

citations

Shou

papers (15)

Show-o: One Single Transformer to Unify Multimodal Understanding and Generation

Drag Anything: Motion Control for Anything using Entity Representation

Rethinking Tree-Ring Watermarking for Enhanced Multi-Key Identification

WMAdapter: Adding WaterMark Control to Latent Diffusion Models

Image Watermarks are Removable using Controllable Regeneration from Clean Noise

SparseFormer: Sparse Visual Recognition via Limited Latent Tokens

Parrot Captions Teach CLIP to Spot Text

OmniConsistency: Learning Style-Agnostic Consistency from Paired Stylization Data

GENIXER: Empowering Multimodal Large Language Models as a Powerful Data Generator

Learning Video Context as Interleaved Multimodal Sequences

DOTA: Distributional Test-time Adaptation of Vision-Language Models

Bridging Information Asymmetry in Text-video Retrieval: A Data-centric Approach

macOSWorld: A Multilingual Interactive Benchmark for GUI Agents

Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models

PANDA: Towards Generalist Video Anomaly Detection via Agentic AI Engineer

papers (15)

Show-o: One Single Transformer to Unify Multimodal Understanding and Generation

Drag Anything: Motion Control for Anything using Entity Representation

Rethinking Tree-Ring Watermarking for Enhanced Multi-Key Identification

WMAdapter: Adding WaterMark Control to Latent Diffusion Models

Image Watermarks are Removable using Controllable Regeneration from Clean Noise

SparseFormer: Sparse Visual Recognition via Limited Latent Tokens

Parrot Captions Teach CLIP to Spot Text

OmniConsistency: Learning Style-Agnostic Consistency from Paired Stylization Data

GENIXER: Empowering Multimodal Large Language Models as a Powerful Data Generator

Learning Video Context as Interleaved Multimodal Sequences

DOTA: Distributional Test-time Adaptation of Vision-Language Models

Bridging Information Asymmetry in Text-video Retrieval: A Data-centric Approach

macOSWorld: A Multilingual Interactive Benchmark for GUI Agents

Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models

PANDA: Towards Generalist Video Anomaly Detection via Agentic AI Engineer