Ran Xu

papers

1,366

total citations

papers (21)

ULIP: Learning a Unified Representation of Language, Images, and Point Clouds for 3D Understanding

CVPR 2023arXiv

307

citations

UniControl: A Unified Diffusion Model for Controllable Visual Generation In the Wild

NEURIPS 2023arXiv

202

citations

ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding

CVPR 2024arXiv

198

citations

HIVE: Harnessing Human Feedback for Instructional Visual Editing

CVPR 2024arXiv

168

citations

Retroformer: Retrospective Large Language Agents with Policy Gradient Optimization

ICLR 2024arXiv

108

citations

Continual-MAE: Adaptive Distribution Masked Autoencoders for Continual Test-Time Adaptation

CVPR 2024arXiv

citations

GlueGen: Plug and Play Multi-modal Encoders for X-to-image Generation

ICCV 2023arXiv

citations

Deformer: Dynamic Fusion Transformer for Robust Hand Pose Estimation

ICCV 2023arXiv

citations

Mask-Free OVIS: Open-Vocabulary Instance Segmentation Without Manual Mask Annotations

CVPR 2023arXiv

citations

LayoutDETR: Detection Transformer Is a Good Multimodal Layout Designer

ECCV 2024arXiv

citations

Open Visual Knowledge Extraction via Relation-Oriented Multimodality Model Prompting

NEURIPS 2023arXiv

citations

Towards Scalable Spatial Intelligence via 2D-to-3D Data Lifting

ICCV 2025arXiv

citations

Burn after Reading: Online Adaptation for Cross-Domain Streaming Data

ECCV 2022arXiv

citations

Trust but Verify: Programmatic VLM Evaluation in the Wild

ICCV 2025arXiv

citations

SmartAdapt: Multi-Branch Object Detection Framework for Videos on Mobiles

CVPR 2022

citations

Text2Data: Low-Resource Data Generation with Textual Control

AAAI 2025arXiv

citations

Structured Policy Optimization: Enhance Large Vision-Language Model via Self-referenced Dialogue

ICCV 2025

citations

Position: TrustLLM: Trustworthiness in Large Language Models

ICML 2024

citations

Ran Xu

papers (21)

ULIP: Learning a Unified Representation of Language, Images, and Point Clouds for 3D Understanding

UniControl: A Unified Diffusion Model for Controllable Visual Generation In the Wild

ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding

HIVE: Harnessing Human Feedback for Instructional Visual Editing

Retroformer: Retrospective Large Language Agents with Policy Gradient Optimization

Open Vocabulary Object Detection with Pseudo Bounding-Box Labels

Use All the Labels: A Hierarchical Multi-Label Contrastive Learning Framework

WOAD: Weakly Supervised Online Action Detection in Untrimmed Videos

Continual-MAE: Adaptive Distribution Masked Autoencoders for Continual Test-Time Adaptation

GlueGen: Plug and Play Multi-modal Encoders for X-to-image Generation

Deformer: Dynamic Fusion Transformer for Robust Hand Pose Estimation

Mask-Free OVIS: Open-Vocabulary Instance Segmentation Without Manual Mask Annotations

LayoutDETR: Detection Transformer Is a Good Multimodal Layout Designer

Open Visual Knowledge Extraction via Relation-Oriented Multimodality Model Prompting

Towards Scalable Spatial Intelligence via 2D-to-3D Data Lifting

Burn after Reading: Online Adaptation for Cross-Domain Streaming Data

Trust but Verify: Programmatic VLM Evaluation in the Wild

SmartAdapt: Multi-Branch Object Detection Framework for Videos on Mobiles

Text2Data: Low-Resource Data Generation with Textual Control

Structured Policy Optimization: Enhance Large Vision-Language Model via Self-referenced Dialogue

Position: TrustLLM: Trustworthiness in Large Language Models

papers (21)

ULIP: Learning a Unified Representation of Language, Images, and Point Clouds for 3D Understanding

UniControl: A Unified Diffusion Model for Controllable Visual Generation In the Wild

ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding

HIVE: Harnessing Human Feedback for Instructional Visual Editing

Retroformer: Retrospective Large Language Agents with Policy Gradient Optimization

Open Vocabulary Object Detection with Pseudo Bounding-Box Labels

Use All the Labels: A Hierarchical Multi-Label Contrastive Learning Framework

WOAD: Weakly Supervised Online Action Detection in Untrimmed Videos

Continual-MAE: Adaptive Distribution Masked Autoencoders for Continual Test-Time Adaptation

GlueGen: Plug and Play Multi-modal Encoders for X-to-image Generation

Deformer: Dynamic Fusion Transformer for Robust Hand Pose Estimation

Mask-Free OVIS: Open-Vocabulary Instance Segmentation Without Manual Mask Annotations

LayoutDETR: Detection Transformer Is a Good Multimodal Layout Designer

Open Visual Knowledge Extraction via Relation-Oriented Multimodality Model Prompting

Towards Scalable Spatial Intelligence via 2D-to-3D Data Lifting

Burn after Reading: Online Adaptation for Cross-Domain Streaming Data

Trust but Verify: Programmatic VLM Evaluation in the Wild

SmartAdapt: Multi-Branch Object Detection Framework for Videos on Mobiles

Text2Data: Low-Resource Data Generation with Textual Control

Structured Policy Optimization: Enhance Large Vision-Language Model via Self-referenced Dialogue

Position: TrustLLM: Trustworthiness in Large Language Models