Ziyu Guo

papers

2,136

total citations

papers (20)

PointCLIP: Point Cloud Understanding by CLIP

CVPR 2022arXiv

587

citations

Point-M2AE: Multi-scale Masked Autoencoders for Hierarchical Point Cloud Pre-training

NEURIPS 2022arXiv

355

citations

LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding

AAAI 2025arXiv

116

citations

T2I-R1: Reinforcing Image Generation with Collaborative Semantic-level and Token-level CoT

NEURIPS 2025arXiv

100

citations

MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency

ICML 2025arXiv

citations

Referred by Multi-Modality: A Unified Temporal Transformer for Video Object Segmentation

AAAI 2024arXiv

citations

UniCTokens: Boosting Personalized Understanding and Generation via Unified Concept Tokens

NEURIPS 2025arXiv

citations

Perceive Anything: Recognize, Explain, Caption, and Segment Anything in Images and Videos

NEURIPS 2025arXiv

citations

No Time to Train: Empowering Non-Parametric Networks for Few-shot 3D Scene Segmentation

CVPR 2024arXiv

citations

Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO

NEURIPS 2025arXiv

citations

Adaptive Classifier-Free Guidance via Dynamic Low-Confidence Masking

NEURIPS 2025arXiv

citations

MMSearch: Unveiling the Potential of Large Models as Multi-modal Search Engines

ICLR 2025

citations

StyleMotif: Multi-Modal Motion Stylization using Style-Content Cross Fusion

ICCV 2025arXiv

citations

MM-Mixing: Multi-Modal Mixing Alignment for 3D Understanding

AAAI 2025arXiv

citations

EchoTraffic: Enhancing Traffic Anomaly Understanding with Audio-Visual Insights

CVPR 2025

citations

Let's Verify and Reinforce Image Generation Step by Step

CVPR 2025

citations

Less is More: Improving Motion Diffusion Models with Sparse Keyframes

ICCV 2025arXiv

citations

Ziyu Guo

papers (20)

PointCLIP: Point Cloud Understanding by CLIP

Point-M2AE: Multi-scale Masked Autoencoders for Hierarchical Point Cloud Pre-training

Personalize Segment Anything Model with One Shot

PointCLIP V2: Prompting CLIP and GPT for Powerful 3D Open-world Learning

MonoDETR: Depth-guided Transformer for Monocular 3D Object Detection

LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding

T2I-R1: Reinforcing Image Generation with Collaborative Semantic-level and Token-level CoT

MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency

Referred by Multi-Modality: A Unified Temporal Transformer for Video Object Segmentation

UniCTokens: Boosting Personalized Understanding and Generation via Unified Concept Tokens

Perceive Anything: Recognize, Explain, Caption, and Segment Anything in Images and Videos

No Time to Train: Empowering Non-Parametric Networks for Few-shot 3D Scene Segmentation

Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO

Adaptive Classifier-Free Guidance via Dynamic Low-Confidence Masking

MMSearch: Unveiling the Potential of Large Models as Multi-modal Search Engines

StyleMotif: Multi-Modal Motion Stylization using Style-Content Cross Fusion

MM-Mixing: Multi-Modal Mixing Alignment for 3D Understanding

EchoTraffic: Enhancing Traffic Anomaly Understanding with Audio-Visual Insights

Let's Verify and Reinforce Image Generation Step by Step

Less is More: Improving Motion Diffusion Models with Sparse Keyframes

papers (20)

PointCLIP: Point Cloud Understanding by CLIP

Point-M2AE: Multi-scale Masked Autoencoders for Hierarchical Point Cloud Pre-training

Personalize Segment Anything Model with One Shot

PointCLIP V2: Prompting CLIP and GPT for Powerful 3D Open-world Learning

MonoDETR: Depth-guided Transformer for Monocular 3D Object Detection

LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding

T2I-R1: Reinforcing Image Generation with Collaborative Semantic-level and Token-level CoT

MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency

Referred by Multi-Modality: A Unified Temporal Transformer for Video Object Segmentation

UniCTokens: Boosting Personalized Understanding and Generation via Unified Concept Tokens

Perceive Anything: Recognize, Explain, Caption, and Segment Anything in Images and Videos

No Time to Train: Empowering Non-Parametric Networks for Few-shot 3D Scene Segmentation

Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO

Adaptive Classifier-Free Guidance via Dynamic Low-Confidence Masking

MMSearch: Unveiling the Potential of Large Models as Multi-modal Search Engines

StyleMotif: Multi-Modal Motion Stylization using Style-Content Cross Fusion

MM-Mixing: Multi-Modal Mixing Alignment for 3D Understanding

EchoTraffic: Enhancing Traffic Anomaly Understanding with Audio-Visual Insights

Let's Verify and Reinforce Image Generation Step by Step

Less is More: Improving Motion Diffusion Models with Sparse Keyframes