Shengqiong Wu

papers

1,114

total citations

papers (10)

NExT-GPT: Any-to-Any Multimodal LLM

ICML 2024arXiv

726

citations

Video-of-Thought: Step-by-Step Video Reasoning from Perception to Cognition

ICML 2024arXiv

146

citations

LasUIE: Unifying Information Extraction with Latent Adaptive Structure-aware Generative Language Model

NEURIPS 2022arXiv

104

citations

JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation

NEURIPS 2025arXiv

citations

Learning 4D Panoptic Scene Graph Generation from Rich 2D Visual Scene

CVPR 2025arXiv

citations

Universal Scene Graph Generation

CVPR 2025arXiv

citations

Imagine That! Abstract-to-Intricate Text-to-Image Synthesis with Scene Graph Hallucination Diffusion

NEURIPS 2023

citations

Shengqiong Wu

papers (10)

NExT-GPT: Any-to-Any Multimodal LLM

Video-of-Thought: Step-by-Step Video Reasoning from Perception to Cognition

LasUIE: Unifying Information Extraction with Latent Adaptive Structure-aware Generative Language Model

Towards Semantic Equivalence of Tokenization in Multimodal LLM

Dysen-VDM: Empowering Dynamics-aware Text-to-Video Diffusion with LLMs

Combating Multimodal LLM Hallucination via Bottom-Up Holistic Reasoning

JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation

Learning 4D Panoptic Scene Graph Generation from Rich 2D Visual Scene

Universal Scene Graph Generation

Imagine That! Abstract-to-Intricate Text-to-Image Synthesis with Scene Graph Hallucination Diffusion

papers (10)

NExT-GPT: Any-to-Any Multimodal LLM

Video-of-Thought: Step-by-Step Video Reasoning from Perception to Cognition

LasUIE: Unifying Information Extraction with Latent Adaptive Structure-aware Generative Language Model

Towards Semantic Equivalence of Tokenization in Multimodal LLM

Dysen-VDM: Empowering Dynamics-aware Text-to-Video Diffusion with LLMs

Combating Multimodal LLM Hallucination via Bottom-Up Holistic Reasoning

JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation

Learning 4D Panoptic Scene Graph Generation from Rich 2D Visual Scene

Universal Scene Graph Generation

Imagine That! Abstract-to-Intricate Text-to-Image Synthesis with Scene Graph Hallucination Diffusion