Sheng Jin

papers

1,392

total citations

papers (24)

Whole-Body Human Pose Estimation in the Wild

ECCV 2020arXiv

308

citations

Not All Tokens Are Equal: Human-Centric Visual Analysis via Token Clustering Transformer

CVPR 2022arXiv

167

citations

Aligning Bag of Regions for Open-Vocabulary Object Detection

CVPR 2023arXiv

156

citations

Differentiable Hierarchical Graph Grouping for Multi-Person Pose Estimation

ECCV 2020arXiv

139

citations

CLIPSelf: Vision Transformer Distills Itself for Open-Vocabulary Dense Prediction

ICLR 2024arXiv

110

citations

When Human Pose Estimation Meets Robustness: Adversarial Algorithms and Benchmarks

CVPR 2021arXiv

citations

Harmonizing Visual Representations for Unified Multimodal Understanding and Generation

ICCV 2025arXiv

citations

PoseTrans: A Simple yet Effective Pose Transformation Augmentation for Human Pose Estimation

ECCV 2022arXiv

citations

Domain Generalization via Balancing Training Difficulty and Model Capability

ICCV 2023arXiv

citations

CLIM: Contrastive Language-Image Mosaic for Region Representation

AAAI 2024arXiv

citations

F-LMM: Grounding Frozen Large Multimodal Models

CVPR 2025arXiv

citations

Uncertainty-aware Unsupervised Multi-Object Tracking

ICCV 2023arXiv

citations

AutoMMLab: Automatically Generating Deployable Models from Language Instructions for Computer Vision Tasks

AAAI 2025arXiv

citations

Ultra-High Resolution Segmentation via Boundary-Enhanced Patch-Merging Transformer

AAAI 2025arXiv

citations

Weakly Supervised Monocular 3D Detection with a Single-View Image

CVPR 2024arXiv

citations

Category-Extensible Out-of-Distribution Detection via Hierarchical Context Descriptions

NEURIPS 2023arXiv

citations

UniFS: Universal Few-shot Instance Perception with Point Representations

ECCV 2024arXiv

citations

NADER: Neural Architecture Design via Multi-Agent Collaboration

CVPR 2025arXiv

citations

Unsupervised Continual Domain Shift Learning with Multi-Prototype Modeling

CVPR 2025

citations

When Counterpoint Meets Chinese Folk Melodies

NEURIPS 2020

citations

Sheng Jin

papers (24)

Whole-Body Human Pose Estimation in the Wild

Not All Tokens Are Equal: Human-Centric Visual Analysis via Token Clustering Transformer

Aligning Bag of Regions for Open-Vocabulary Object Detection

Differentiable Hierarchical Graph Grouping for Multi-Person Pose Estimation

CLIPSelf: Vision Transformer Distills Itself for Open-Vocabulary Dense Prediction

When Human Pose Estimation Meets Robustness: Adversarial Algorithms and Benchmarks

Graph-Based 3D Multi-Person Pose Estimation Using Multi-View Images

ViPNAS: Efficient Video Pose Estimation via Neural Architecture Search

3D Interacting Hand Pose Estimation by Hand De-Occlusion and Removal

Pose for Everything: Towards Category-Agnostic Pose Estimation

Harmonizing Visual Representations for Unified Multimodal Understanding and Generation

PoseTrans: A Simple yet Effective Pose Transformation Augmentation for Human Pose Estimation

Domain Generalization via Balancing Training Difficulty and Model Capability

CLIM: Contrastive Language-Image Mosaic for Region Representation

F-LMM: Grounding Frozen Large Multimodal Models

Uncertainty-aware Unsupervised Multi-Object Tracking

AutoMMLab: Automatically Generating Deployable Models from Language Instructions for Computer Vision Tasks

Ultra-High Resolution Segmentation via Boundary-Enhanced Patch-Merging Transformer

Weakly Supervised Monocular 3D Detection with a Single-View Image

Category-Extensible Out-of-Distribution Detection via Hierarchical Context Descriptions

UniFS: Universal Few-shot Instance Perception with Point Representations

NADER: Neural Architecture Design via Multi-Agent Collaboration

Unsupervised Continual Domain Shift Learning with Multi-Prototype Modeling

When Counterpoint Meets Chinese Folk Melodies

papers (24)

Whole-Body Human Pose Estimation in the Wild

Not All Tokens Are Equal: Human-Centric Visual Analysis via Token Clustering Transformer

Aligning Bag of Regions for Open-Vocabulary Object Detection

Differentiable Hierarchical Graph Grouping for Multi-Person Pose Estimation

CLIPSelf: Vision Transformer Distills Itself for Open-Vocabulary Dense Prediction

When Human Pose Estimation Meets Robustness: Adversarial Algorithms and Benchmarks

Graph-Based 3D Multi-Person Pose Estimation Using Multi-View Images

ViPNAS: Efficient Video Pose Estimation via Neural Architecture Search

3D Interacting Hand Pose Estimation by Hand De-Occlusion and Removal

Pose for Everything: Towards Category-Agnostic Pose Estimation

Harmonizing Visual Representations for Unified Multimodal Understanding and Generation

PoseTrans: A Simple yet Effective Pose Transformation Augmentation for Human Pose Estimation

Domain Generalization via Balancing Training Difficulty and Model Capability

CLIM: Contrastive Language-Image Mosaic for Region Representation

F-LMM: Grounding Frozen Large Multimodal Models

Uncertainty-aware Unsupervised Multi-Object Tracking

AutoMMLab: Automatically Generating Deployable Models from Language Instructions for Computer Vision Tasks

Ultra-High Resolution Segmentation via Boundary-Enhanced Patch-Merging Transformer

Weakly Supervised Monocular 3D Detection with a Single-View Image

Category-Extensible Out-of-Distribution Detection via Hierarchical Context Descriptions

UniFS: Universal Few-shot Instance Perception with Point Representations

NADER: Neural Architecture Design via Multi-Agent Collaboration

Unsupervised Continual Domain Shift Learning with Multi-Prototype Modeling

When Counterpoint Meets Chinese Folk Melodies