Jiangmiao Pang

papers

3,401

total citations

papers (28)

LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D Capabilities

ICCV 2025

127

citations

Video K-Net: A Simple, Strong, and Unified Baseline for Video Segmentation

CVPR 2022arXiv

111

citations

Unified Human-Scene Interaction via Prompted Chain-of-Contacts

ICLR 2024arXiv

101

citations

Monocular 3D Object Detection with Depth from Motion

ECCV 2022arXiv

citations

Aether: Geometric-Aware Unified World Modeling

ICCV 2025arXiv

citations

MV-JAR: Masked Voxel Jigsaw and Reconstruction for LiDAR-Based Self-Supervised Pre-Training

CVPR 2023arXiv

citations

OV-PARTS: Towards Open-Vocabulary Part Segmentation

NEURIPS 2023arXiv

citations

GenNBV: Generalizable Next-Best-View Policy for Active 3D Reconstruction

CVPR 2024arXiv

citations

Tube-Link: A Flexible Cross Tube Framework for Universal Video Segmentation

ICCV 2023arXiv

citations

RoboGround: Robotic Manipulation with Grounded Vision-Language Priors

CVPR 2025arXiv

citations

Dense Siamese Network for Dense Unsupervised Learning

ECCV 2022arXiv

citations

EgoExoBench: A Benchmark for First- and Third-person View Video Understanding in MLLMs

NEURIPS 2025arXiv

citations

GENMANIP: LLM-driven Simulation for Generalizable Instruction-Following Manipulation

CVPR 2025arXiv

citations

ObjectGS: Object-aware Scene Reconstruction and Scene Understanding via Gaussian Splatting

ICCV 2025arXiv

citations

Rethinking the Embodied Gap in Vision-and-Language Navigation: A Holistic Study of Physical and Visual Disparities

ICCV 2025arXiv

citations

OST-Bench: Evaluating the Capabilities of MLLMs in Online Spatio-temporal Scene Understanding

NEURIPS 2025arXiv

citations

GLEAM: Learning Generalizable Exploration Policy for Active Mapping in Complex 3D Indoor Scene

ICCV 2025arXiv

citations

VFlowOpt: A Token Pruning Framework for LMMs with Visual Information Flow-Guided Optimization

ICCV 2025arXiv

citations

A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning

CVPR 2025arXiv

citations

LabUtopia: High-Fidelity Simulation and Hierarchical Benchmark for Scientific Embodied Agents

NEURIPS 2025arXiv

citations

Jiangmiao Pang

papers (28)

Observation-Centric SORT: Rethinking SORT for Robust Multi-Object Tracking

Quasi-Dense Similarity Learning for Multiple Object Tracking

K-Net: Towards Unified Image Segmentation

PointLLM: Empowering Large Language Models to Understand Point Clouds

Seesaw Loss for Long-Tailed Instance Segmentation

Dense Distinct Query for End-to-End Object Detection

Side-Aware Boundary Localization for More Precise Object Detection

EmbodiedScan: A Holistic Multi-Modal 3D Perception Suite Towards Embodied AI

LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D Capabilities

Video K-Net: A Simple, Strong, and Unified Baseline for Video Segmentation

Unified Human-Scene Interaction via Prompted Chain-of-Contacts

Monocular 3D Object Detection with Depth from Motion

Aether: Geometric-Aware Unified World Modeling

MV-JAR: Masked Voxel Jigsaw and Reconstruction for LiDAR-Based Self-Supervised Pre-Training

OV-PARTS: Towards Open-Vocabulary Part Segmentation

GenNBV: Generalizable Next-Best-View Policy for Active 3D Reconstruction

Tube-Link: A Flexible Cross Tube Framework for Universal Video Segmentation

RoboGround: Robotic Manipulation with Grounded Vision-Language Priors

Dense Siamese Network for Dense Unsupervised Learning

EgoExoBench: A Benchmark for First- and Third-person View Video Understanding in MLLMs

GENMANIP: LLM-driven Simulation for Generalizable Instruction-Following Manipulation

ObjectGS: Object-aware Scene Reconstruction and Scene Understanding via Gaussian Splatting

Rethinking the Embodied Gap in Vision-and-Language Navigation: A Holistic Study of Physical and Visual Disparities

OST-Bench: Evaluating the Capabilities of MLLMs in Online Spatio-temporal Scene Understanding

GLEAM: Learning Generalizable Exploration Policy for Active Mapping in Complex 3D Indoor Scene

VFlowOpt: A Token Pruning Framework for LMMs with Visual Information Flow-Guided Optimization

A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning

LabUtopia: High-Fidelity Simulation and Hierarchical Benchmark for Scientific Embodied Agents

papers (28)

Observation-Centric SORT: Rethinking SORT for Robust Multi-Object Tracking

Quasi-Dense Similarity Learning for Multiple Object Tracking

K-Net: Towards Unified Image Segmentation

PointLLM: Empowering Large Language Models to Understand Point Clouds

Seesaw Loss for Long-Tailed Instance Segmentation

Dense Distinct Query for End-to-End Object Detection

Side-Aware Boundary Localization for More Precise Object Detection

EmbodiedScan: A Holistic Multi-Modal 3D Perception Suite Towards Embodied AI

LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D Capabilities

Video K-Net: A Simple, Strong, and Unified Baseline for Video Segmentation

Unified Human-Scene Interaction via Prompted Chain-of-Contacts

Monocular 3D Object Detection with Depth from Motion

Aether: Geometric-Aware Unified World Modeling

MV-JAR: Masked Voxel Jigsaw and Reconstruction for LiDAR-Based Self-Supervised Pre-Training

OV-PARTS: Towards Open-Vocabulary Part Segmentation

GenNBV: Generalizable Next-Best-View Policy for Active 3D Reconstruction

Tube-Link: A Flexible Cross Tube Framework for Universal Video Segmentation

RoboGround: Robotic Manipulation with Grounded Vision-Language Priors

Dense Siamese Network for Dense Unsupervised Learning

EgoExoBench: A Benchmark for First- and Third-person View Video Understanding in MLLMs

GENMANIP: LLM-driven Simulation for Generalizable Instruction-Following Manipulation

ObjectGS: Object-aware Scene Reconstruction and Scene Understanding via Gaussian Splatting

Rethinking the Embodied Gap in Vision-and-Language Navigation: A Holistic Study of Physical and Visual Disparities

OST-Bench: Evaluating the Capabilities of MLLMs in Online Spatio-temporal Scene Understanding

GLEAM: Learning Generalizable Exploration Policy for Active Mapping in Complex 3D Indoor Scene

VFlowOpt: A Token Pruning Framework for LMMs with Visual Information Flow-Guided Optimization

A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning

LabUtopia: High-Fidelity Simulation and Hierarchical Benchmark for Scientific Embodied Agents