Jianhua Han

papers

1,437

total citations

papers (23)

DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for Open-world Detection

NEURIPS 2022arXiv

223

citations

G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model

ICLR 2025arXiv

174

citations

CODA: A Real-World Road Corner Case Dataset for Object Detection in Autonomous Driving

ECCV 2022arXiv

135

citations

Reason2Drive: Towards Interpretable and Chain-based Reasoning for Autonomous Driving

ECCV 2024arXiv

115

citations

DetCLIPv2: Scalable Open-Vocabulary Object Detection Pre-Training via Word-Region Alignment

CVPR 2023arXiv

104

citations

Open-World Semantic Segmentation via Contrasting and Clustering Vision-Language Embedding

ECCV 2022arXiv

citations

ONCE-3DLanes: Building Monocular 3D Lane Detection

CVPR 2022arXiv

citations

Holistic Autonomous Driving Understanding by Bird’s-Eye-View Injected Multi-Modal Large Models

CVPR 2024arXiv

citations

Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake Analysis

ICLR 2024arXiv

citations

CapDet: Unifying Dense Captioning and Open-World Detection Pretraining

CVPR 2023arXiv

citations

ILLUME: Illuminating Your LLMs to See, Draw, and Self-Enhance

ICCV 2025arXiv

citations

Any-Size-Diffusion: Toward Efficient Text-Driven Synthesis for Any-Size HD Images

AAAI 2024arXiv

citations

Generative Negative Text Replay for Continual Vision-Language Pretraining

ECCV 2022arXiv

citations

Visual Exemplar Driven Task-Prompting for Unified Perception in Autonomous Driving

CVPR 2023arXiv

citations

Implicit Concept Removal of Diffusion Models

ECCV 2024arXiv

citations

HiRes-LLaVA: Restoring Fragmentation Input in High-Resolution Large Vision-Language Models

CVPR 2025arXiv

citations

HumanRefiner: Benchmarking Abnormal Human Generation and Refining with Coarse-to-fine Pose-Reversible Guidance

ECCV 2024arXiv

citations

DiffDis: Empowering Generative Diffusion Model with Cross-Modal Discrimination Capability

ICCV 2023arXiv

citations

GrowCLIP: Data-Aware Automatic Model Growing for Large-scale Contrastive Language-Image Pre-Training

ICCV 2023arXiv

citations

CLIP2: Contrastive Language-Image-Point Pretraining From Real-World Point Cloud Data

CVPR 2023

citations

Jianhua Han

papers (23)

DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for Open-world Detection

G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model

CODA: A Real-World Road Corner Case Dataset for Object Detection in Autonomous Driving

Reason2Drive: Towards Interpretable and Chain-based Reasoning for Autonomous Driving

DetCLIPv2: Scalable Open-Vocabulary Object Detection Pre-Training via Word-Region Alignment

Open-World Semantic Segmentation via Contrasting and Clustering Vision-Language Embedding

ONCE-3DLanes: Building Monocular 3D Lane Detection

Holistic Autonomous Driving Understanding by Bird’s-Eye-View Injected Multi-Modal Large Models

DetCLIPv3: Towards Versatile Generative Open-vocabulary Object Detection

EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions

Effective Adaptation in Multi-Task Co-Training for Unified Autonomous Driving

Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake Analysis

CapDet: Unifying Dense Captioning and Open-World Detection Pretraining

ILLUME: Illuminating Your LLMs to See, Draw, and Self-Enhance

Any-Size-Diffusion: Toward Efficient Text-Driven Synthesis for Any-Size HD Images

Generative Negative Text Replay for Continual Vision-Language Pretraining

Visual Exemplar Driven Task-Prompting for Unified Perception in Autonomous Driving

Implicit Concept Removal of Diffusion Models

HiRes-LLaVA: Restoring Fragmentation Input in High-Resolution Large Vision-Language Models

HumanRefiner: Benchmarking Abnormal Human Generation and Refining with Coarse-to-fine Pose-Reversible Guidance

DiffDis: Empowering Generative Diffusion Model with Cross-Modal Discrimination Capability

GrowCLIP: Data-Aware Automatic Model Growing for Large-scale Contrastive Language-Image Pre-Training

CLIP2: Contrastive Language-Image-Point Pretraining From Real-World Point Cloud Data

papers (23)

DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for Open-world Detection

G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model

CODA: A Real-World Road Corner Case Dataset for Object Detection in Autonomous Driving

Reason2Drive: Towards Interpretable and Chain-based Reasoning for Autonomous Driving

DetCLIPv2: Scalable Open-Vocabulary Object Detection Pre-Training via Word-Region Alignment

Open-World Semantic Segmentation via Contrasting and Clustering Vision-Language Embedding

ONCE-3DLanes: Building Monocular 3D Lane Detection

Holistic Autonomous Driving Understanding by Bird’s-Eye-View Injected Multi-Modal Large Models

DetCLIPv3: Towards Versatile Generative Open-vocabulary Object Detection

EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions

Effective Adaptation in Multi-Task Co-Training for Unified Autonomous Driving

Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake Analysis

CapDet: Unifying Dense Captioning and Open-World Detection Pretraining

ILLUME: Illuminating Your LLMs to See, Draw, and Self-Enhance

Any-Size-Diffusion: Toward Efficient Text-Driven Synthesis for Any-Size HD Images

Generative Negative Text Replay for Continual Vision-Language Pretraining

Visual Exemplar Driven Task-Prompting for Unified Perception in Autonomous Driving

Implicit Concept Removal of Diffusion Models

HiRes-LLaVA: Restoring Fragmentation Input in High-Resolution Large Vision-Language Models

HumanRefiner: Benchmarking Abnormal Human Generation and Refining with Coarse-to-fine Pose-Reversible Guidance

DiffDis: Empowering Generative Diffusion Model with Cross-Modal Discrimination Capability

GrowCLIP: Data-Aware Automatic Model Growing for Large-scale Contrastive Language-Image Pre-Training

CLIP2: Contrastive Language-Image-Point Pretraining From Real-World Point Cloud Data