Hisham Cholakkal

papers

1,229

total citations

papers (25)

GLaMM: Pixel Grounding Large Multimodal Model

CVPR 2024arXiv

411

citations

SipMask: Spatial Information Preservation for Fast Image and Video Instance Segmentation

ECCV 2020arXiv

188

citations

D2-Net: Weakly-Supervised Action Localization via Discriminative Embeddings and Denoised Activations

ICCV 2021arXiv

citations

All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages

CVPR 2025arXiv

citations

Discriminative Co-Saliency and Background Mining Transformer for Co-Salient Object Detection

CVPR 2023arXiv

citations

DoodleFormer: Creative Sketch Drawing with Transformers

ECCV 2022arXiv

citations

Video Instance Segmentation via Multi-Scale Spatio-Temporal Split Attention Transformer

ECCV 2022arXiv

citations

Semi-supervised Open-World Object Detection

AAAI 2024arXiv

citations

Multi-grained Temporal Prototype Learning for Few-shot Video Object Segmentation

ICCV 2023arXiv

citations

Handling Data Heterogeneity via Architectural Design for Federated Visual Recognition

NEURIPS 2023arXiv

citations

3D Indoor Instance Segmentation in an Open-World

NEURIPS 2023arXiv

citations

PARIS3D: Reasoning-based 3D Part Segmentation Using Large Multimodal Model

ECCV 2024arXiv

citations

CONDA: Condensed Deep Association Learning for Co-Salient Object Detection.

ECCV 2024arXiv

citations

Generative Multiplane Neural Radiance for 3D-Aware Image Generation

ICCV 2023arXiv

citations

TAViS: Text-bridged Audio-Visual Segmentation with Foundation Models

ICCV 2025arXiv

citations

Adapting In-Domain Few-Shot Segmentation to New Domains without Source Domain Retraining

ICCV 2025arXiv

citations

Bidirectional Reciprocative Information Communication for Few-Shot Semantic Segmentation

ICML 2024

citations

DEFT: Decompositional Efficient Fine-Tuning for Text-to-Image Models

NEURIPS 2025arXiv

citations

Fixing Localization Errors to Improve Image Classification

ECCV 2020

citations

D2Det: Towards High Quality Object Detection and Instance Segmentation

CVPR 2020

citations

Count- and Similarity-aware R-CNN for Pedestrian Detection

ECCV 2020

citations

Hisham Cholakkal

papers (25)

GLaMM: Pixel Grounding Large Multimodal Model

SipMask: Spatial Information Preservation for Fast Image and Video Instance Segmentation

Person Image Synthesis via Denoising Diffusion Model

Rethinking Transformers Pre-training for Multi-Spectral Satellite Imagery

PSTR: End-to-End One-Step Person Search With Transformers

Handwriting Transformers

D2-Net: Weakly-Supervised Action Localization via Discriminative Embeddings and Denoised Activations

All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages

Discriminative Co-Saliency and Background Mining Transformer for Co-Salient Object Detection

DoodleFormer: Creative Sketch Drawing with Transformers

Video Instance Segmentation via Multi-Scale Spatio-Temporal Split Attention Transformer

Semi-supervised Open-World Object Detection

Multi-grained Temporal Prototype Learning for Few-shot Video Object Segmentation

Handling Data Heterogeneity via Architectural Design for Federated Visual Recognition

3D Indoor Instance Segmentation in an Open-World

PARIS3D: Reasoning-based 3D Part Segmentation Using Large Multimodal Model

CONDA: Condensed Deep Association Learning for Co-Salient Object Detection.

Generative Multiplane Neural Radiance for 3D-Aware Image Generation

TAViS: Text-bridged Audio-Visual Segmentation with Foundation Models

Adapting In-Domain Few-Shot Segmentation to New Domains without Source Domain Retraining

Bidirectional Reciprocative Information Communication for Few-Shot Semantic Segmentation

DEFT: Decompositional Efficient Fine-Tuning for Text-to-Image Models

Fixing Localization Errors to Improve Image Classification

D2Det: Towards High Quality Object Detection and Instance Segmentation

Count- and Similarity-aware R-CNN for Pedestrian Detection

papers (25)

GLaMM: Pixel Grounding Large Multimodal Model

SipMask: Spatial Information Preservation for Fast Image and Video Instance Segmentation

Person Image Synthesis via Denoising Diffusion Model

Rethinking Transformers Pre-training for Multi-Spectral Satellite Imagery

PSTR: End-to-End One-Step Person Search With Transformers

Handwriting Transformers

D2-Net: Weakly-Supervised Action Localization via Discriminative Embeddings and Denoised Activations

All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages

Discriminative Co-Saliency and Background Mining Transformer for Co-Salient Object Detection

DoodleFormer: Creative Sketch Drawing with Transformers

Video Instance Segmentation via Multi-Scale Spatio-Temporal Split Attention Transformer

Semi-supervised Open-World Object Detection

Multi-grained Temporal Prototype Learning for Few-shot Video Object Segmentation

Handling Data Heterogeneity via Architectural Design for Federated Visual Recognition

3D Indoor Instance Segmentation in an Open-World

PARIS3D: Reasoning-based 3D Part Segmentation Using Large Multimodal Model

CONDA: Condensed Deep Association Learning for Co-Salient Object Detection.

Generative Multiplane Neural Radiance for 3D-Aware Image Generation

TAViS: Text-bridged Audio-Visual Segmentation with Foundation Models

Adapting In-Domain Few-Shot Segmentation to New Domains without Source Domain Retraining

Bidirectional Reciprocative Information Communication for Few-Shot Semantic Segmentation

DEFT: Decompositional Efficient Fine-Tuning for Text-to-Image Models

Fixing Localization Errors to Improve Image Classification

D2Det: Towards High Quality Object Detection and Instance Segmentation

Count- and Similarity-aware R-CNN for Pedestrian Detection