Paul Hongsuck Seo

papers

1,053

total citations

papers (14)

Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense Video Captioning

CVPR 2023arXiv

332

citations

Pseudo-RIS: Distinctive Pseudo-supervision Generation for Referring Image Segmentation

ECCV 2024arXiv

citations

Seg4Diff: Unveiling Open-Vocabulary Semantic Segmentation in Text-to-Image Diffusion Transformers

NEURIPS 2025

citations

Random Conditioning with Distillation for Data-Efficient Diffusion Model Compression

CVPR 2025arXiv

citations

DialNav: Multi-turn Dialog Navigation with a Remote Guide

ICCV 2025arXiv

citations

Multi-Granularity Video Object Segmentation

AAAI 2025arXiv

citations

Paul Hongsuck Seo

papers (14)

Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense Video Captioning

CAT-Seg: Cost Aggregation for Open-Vocabulary Semantic Segmentation

End-to-End Generative Pretraining for Multimodal Video Captioning

Learning Audio-Video Modalities from Image Captions

Zero-Shot Referring Image Segmentation With Global-Local Context Features

Look Before You Speak: Visually Contextualized Utterances

Learning Correlation Structures for Vision Transformers

AVFormer: Injecting Vision Into Frozen Speech Models for Zero-Shot AV-ASR

IFSeg: Image-Free Semantic Segmentation via Vision-Language Model

Pseudo-RIS: Distinctive Pseudo-supervision Generation for Referring Image Segmentation

Seg4Diff: Unveiling Open-Vocabulary Semantic Segmentation in Text-to-Image Diffusion Transformers

Random Conditioning with Distillation for Data-Efficient Diffusion Model Compression

DialNav: Multi-turn Dialog Navigation with a Remote Guide

Multi-Granularity Video Object Segmentation

papers (14)

Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense Video Captioning

CAT-Seg: Cost Aggregation for Open-Vocabulary Semantic Segmentation

End-to-End Generative Pretraining for Multimodal Video Captioning

Learning Audio-Video Modalities from Image Captions

Zero-Shot Referring Image Segmentation With Global-Local Context Features

Look Before You Speak: Visually Contextualized Utterances

Learning Correlation Structures for Vision Transformers

AVFormer: Injecting Vision Into Frozen Speech Models for Zero-Shot AV-ASR

IFSeg: Image-Free Semantic Segmentation via Vision-Language Model

Pseudo-RIS: Distinctive Pseudo-supervision Generation for Referring Image Segmentation

Seg4Diff: Unveiling Open-Vocabulary Semantic Segmentation in Text-to-Image Diffusion Transformers

Random Conditioning with Distillation for Data-Efficient Diffusion Model Compression

DialNav: Multi-turn Dialog Navigation with a Remote Guide

Multi-Granularity Video Object Segmentation