Muzammal Naseer

papers

1,868

total citations

papers (23)

PromptCAL: Contrastive Affinity Learning via Auxiliary Prompts for Generalized Novel Category Discovery

CVPR 2023arXiv

106

citations

Orthogonal Projection Loss

ICCV 2021arXiv

citations

On Generating Transferable Targeted Perturbations

ICCV 2021arXiv

citations

Rethinking Transformers Pre-training for Multi-Spectral Satellite Imagery

CVPR 2024arXiv

citations

FLIP: Cross-domain Face Anti-spoofing with Language Guidance

ICCV 2023arXiv

citations

LLM Blueprint: Enabling Text-to-Image Generation with Complex and Detailed Prompts

ICLR 2024arXiv

citations

CLIP2Protect: Protecting Facial Privacy Using Text-Guided Makeup via Adversarial Latent Search

CVPR 2023arXiv

citations

Learning to Prompt with Text Only Supervision for Vision-Language Models

AAAI 2025arXiv

citations

Video-FocalNets: Spatio-Temporal Focal Modulation for Video Action Recognition

ICCV 2023arXiv

citations

Composed Video Retrieval via Enriched Context and Discriminative Embeddings

CVPR 2024arXiv

citations

STEREO: A Two-Stage Framework for Adversarially Robust Concept Erasing from Text-to-Image Diffusion Models

CVPR 2025arXiv

citations

DyCON: Dynamic Uncertainty-aware Consistency and Contrastive Learning for Semi-supervised Medical Image Segmentation

CVPR 2025arXiv

citations

Video-Panda: Parameter-efficient Alignment for Encoder-free Video-Language Models

CVPR 2025arXiv

citations

STING-BEE: Towards Vision-Language Model for Real-World X-ray Baggage Security Inspection

CVPR 2025arXiv

citations

Vision-Language Neural Graph Featurization for Extracting Retinal Lesions

ICCV 2025

citations

S3A: Towards Realistic Zero-Shot Classification via Self Structural Semantic Alignment

AAAI 2024

citations

VideoGrounding-DINO: Towards Open-Vocabulary Spatio-Temporal Video Grounding

CVPR 2024

citations

MixANT: Observation-dependent Memory Propagation for Stochastic Dense Action Anticipation

ICCV 2025arXiv

citations

Muzammal Naseer

papers (23)

A Self-supervised Approach for Adversarial Robustness

GeoChat: Grounded Large Vision-Language Model for Remote Sensing

Self-regulating Prompts: Foundational Model Adaptation without Forgetting

Vita-CLIP: Video and Text Adaptive CLIP via Multimodal Prompting

Self-Supervised Video Transformer

PromptCAL: Contrastive Affinity Learning via Auxiliary Prompts for Generalized Novel Category Discovery

Orthogonal Projection Loss

On Generating Transferable Targeted Perturbations

Rethinking Transformers Pre-training for Multi-Spectral Satellite Imagery

FLIP: Cross-domain Face Anti-spoofing with Language Guidance

LLM Blueprint: Enabling Text-to-Image Generation with Complex and Detailed Prompts

CLIP2Protect: Protecting Facial Privacy Using Text-Guided Makeup via Adversarial Latent Search

Learning to Prompt with Text Only Supervision for Vision-Language Models

Video-FocalNets: Spatio-Temporal Focal Modulation for Video Action Recognition

Composed Video Retrieval via Enriched Context and Discriminative Embeddings

STEREO: A Two-Stage Framework for Adversarially Robust Concept Erasing from Text-to-Image Diffusion Models

DyCON: Dynamic Uncertainty-aware Consistency and Contrastive Learning for Semi-supervised Medical Image Segmentation

Video-Panda: Parameter-efficient Alignment for Encoder-free Video-Language Models

STING-BEE: Towards Vision-Language Model for Real-World X-ray Baggage Security Inspection

Vision-Language Neural Graph Featurization for Extracting Retinal Lesions

S3A: Towards Realistic Zero-Shot Classification via Self Structural Semantic Alignment

VideoGrounding-DINO: Towards Open-Vocabulary Spatio-Temporal Video Grounding

MixANT: Observation-dependent Memory Propagation for Stochastic Dense Action Anticipation

papers (23)

A Self-supervised Approach for Adversarial Robustness

GeoChat: Grounded Large Vision-Language Model for Remote Sensing

Self-regulating Prompts: Foundational Model Adaptation without Forgetting

Vita-CLIP: Video and Text Adaptive CLIP via Multimodal Prompting

Self-Supervised Video Transformer

PromptCAL: Contrastive Affinity Learning via Auxiliary Prompts for Generalized Novel Category Discovery

Orthogonal Projection Loss

On Generating Transferable Targeted Perturbations

Rethinking Transformers Pre-training for Multi-Spectral Satellite Imagery

FLIP: Cross-domain Face Anti-spoofing with Language Guidance

LLM Blueprint: Enabling Text-to-Image Generation with Complex and Detailed Prompts

CLIP2Protect: Protecting Facial Privacy Using Text-Guided Makeup via Adversarial Latent Search

Learning to Prompt with Text Only Supervision for Vision-Language Models

Video-FocalNets: Spatio-Temporal Focal Modulation for Video Action Recognition

Composed Video Retrieval via Enriched Context and Discriminative Embeddings

STEREO: A Two-Stage Framework for Adversarially Robust Concept Erasing from Text-to-Image Diffusion Models

DyCON: Dynamic Uncertainty-aware Consistency and Contrastive Learning for Semi-supervised Medical Image Segmentation

Video-Panda: Parameter-efficient Alignment for Encoder-free Video-Language Models

STING-BEE: Towards Vision-Language Model for Real-World X-ray Baggage Security Inspection

Vision-Language Neural Graph Featurization for Extracting Retinal Lesions

S3A: Towards Realistic Zero-Shot Classification via Self Structural Semantic Alignment

VideoGrounding-DINO: Towards Open-Vocabulary Spatio-Temporal Video Grounding

MixANT: Observation-dependent Memory Propagation for Stochastic Dense Action Anticipation