Rita Cucchiara

papers

2,157

total citations

papers (24)

Multimodal Garment Designer: Human-Centric Latent Diffusion Models for Fashion Image Editing

ICCV 2023arXiv

citations

Positive-Augmented Contrastive Learning for Image and Video Captioning Evaluation

CVPR 2023arXiv

citations

Compressed Volumetric Heatmaps for Multi-Person 3D Pose Estimation

CVPR 2020arXiv

citations

How Many Observations Are Enough? Knowledge Distillation for Trajectory Forecasting

CVPR 2022arXiv

citations

Handwritten Text Generation From Visual Archetypes

CVPR 2023arXiv

citations

Masked Jigsaw Puzzle: A Versatile Position Embedding for Vision Transformers

CVPR 2023arXiv

citations

With a Little Help from Your Own Past: Prototypical Memory Networks for Image Captioning

ICCV 2023arXiv

citations

Training-Free Open-Vocabulary Segmentation with Offline Diffusion-Augmented Prototype Generation

CVPR 2024arXiv

citations

Maximum Class Separation as Inductive Bias in One Matrix

NEURIPS 2022arXiv

citations

Talking to DINO: Bridging Self-Supervised Vision Backbones with Language for Open-Vocabulary Segmentation

ICCV 2025arXiv

citations

TrackFlow: Multi-Object tracking with Normalizing Flows

ICCV 2023arXiv

citations

Augmenting Multimodal LLMs with Self-Reflective Tokens for Knowledge-based Visual Question Answering

CVPR 2025arXiv

citations

Zero-Shot Styled Text Image Generation, but Make It Autoregressive

CVPR 2025arXiv

citations

Hyperbolic Safety-Aware Vision-Language Models

CVPR 2025arXiv

citations

Merging and Splitting Diffusion Paths for Semantically Coherent Panoramas

ECCV 2024arXiv

citations

Recurrence-Enhanced Vision-and-Language Transformers for Robust Multimodal Document Retrieval

CVPR 2025arXiv

citations

Diffusion Transformers for Tabular Data Time Series Generation

ICLR 2025arXiv

citations

What Changed? Detecting and Evaluating Instruction-Guided Image Edits with Multimodal Large Language Models

ICCV 2025arXiv

citations

Modeling Human Gaze Behavior with Diffusion Models for Unified Scanpath Prediction

ICCV 2025arXiv

citations

MissRAG: Addressing the Missing Modality Challenge in Multimodal Large Language Models

ICCV 2025

citations

Rita Cucchiara

papers (24)

Meshed-Memory Transformer for Image Captioning

Conditional Channel Gated Networks for Task-Aware Continual Learning

Dress Code: High-Resolution Multi-Category Virtual Try-On

MOTSynth: How Can Synthetic Data Help Pedestrian Detection and Tracking?

Multimodal Garment Designer: Human-Centric Latent Diffusion Models for Fashion Image Editing

Positive-Augmented Contrastive Learning for Image and Video Captioning Evaluation

Compressed Volumetric Heatmaps for Multi-Person 3D Pose Estimation

How Many Observations Are Enough? Knowledge Distillation for Trajectory Forecasting

Handwritten Text Generation From Visual Archetypes

Masked Jigsaw Puzzle: A Versatile Position Embedding for Vision Transformers

With a Little Help from Your Own Past: Prototypical Memory Networks for Image Captioning

Training-Free Open-Vocabulary Segmentation with Offline Diffusion-Augmented Prototype Generation

Maximum Class Separation as Inductive Bias in One Matrix

Talking to DINO: Bridging Self-Supervised Vision Backbones with Language for Open-Vocabulary Segmentation

TrackFlow: Multi-Object tracking with Normalizing Flows

Augmenting Multimodal LLMs with Self-Reflective Tokens for Knowledge-based Visual Question Answering

Zero-Shot Styled Text Image Generation, but Make It Autoregressive

Hyperbolic Safety-Aware Vision-Language Models

Merging and Splitting Diffusion Paths for Semantically Coherent Panoramas

Recurrence-Enhanced Vision-and-Language Transformers for Robust Multimodal Document Retrieval

Diffusion Transformers for Tabular Data Time Series Generation

What Changed? Detecting and Evaluating Instruction-Guided Image Edits with Multimodal Large Language Models

Modeling Human Gaze Behavior with Diffusion Models for Unified Scanpath Prediction

MissRAG: Addressing the Missing Modality Challenge in Multimodal Large Language Models

papers (24)

Meshed-Memory Transformer for Image Captioning

Conditional Channel Gated Networks for Task-Aware Continual Learning

Dress Code: High-Resolution Multi-Category Virtual Try-On

MOTSynth: How Can Synthetic Data Help Pedestrian Detection and Tracking?

Multimodal Garment Designer: Human-Centric Latent Diffusion Models for Fashion Image Editing

Positive-Augmented Contrastive Learning for Image and Video Captioning Evaluation

Compressed Volumetric Heatmaps for Multi-Person 3D Pose Estimation

How Many Observations Are Enough? Knowledge Distillation for Trajectory Forecasting

Handwritten Text Generation From Visual Archetypes

Masked Jigsaw Puzzle: A Versatile Position Embedding for Vision Transformers

With a Little Help from Your Own Past: Prototypical Memory Networks for Image Captioning

Training-Free Open-Vocabulary Segmentation with Offline Diffusion-Augmented Prototype Generation

Maximum Class Separation as Inductive Bias in One Matrix

Talking to DINO: Bridging Self-Supervised Vision Backbones with Language for Open-Vocabulary Segmentation

TrackFlow: Multi-Object tracking with Normalizing Flows

Augmenting Multimodal LLMs with Self-Reflective Tokens for Knowledge-based Visual Question Answering

Zero-Shot Styled Text Image Generation, but Make It Autoregressive

Hyperbolic Safety-Aware Vision-Language Models

Merging and Splitting Diffusion Paths for Semantically Coherent Panoramas

Recurrence-Enhanced Vision-and-Language Transformers for Robust Multimodal Document Retrieval

Diffusion Transformers for Tabular Data Time Series Generation

What Changed? Detecting and Evaluating Instruction-Guided Image Edits with Multimodal Large Language Models

Modeling Human Gaze Behavior with Diffusion Models for Unified Scanpath Prediction

MissRAG: Addressing the Missing Modality Challenge in Multimodal Large Language Models