Yong Man Ro

Affiliations

KAIST

papers

509

total citations

papers (23)

Video Prediction Recalling Long-Term Motion Context via Memory Alignment Learning

CVPR 2021arXiv

125

citations

Lip to Speech Synthesis with Visual Context Attentional GAN

NEURIPS 2021arXiv

citations

Watch or Listen: Robust Audio-Visual Speech Recognition With Visual Corruption Modeling and Reliability Scoring

CVPR 2023arXiv

citations

Distilling Robust and Non-Robust Features in Adversarial Examples by Information Bottleneck

NEURIPS 2021arXiv

citations

DiffV2S: Diffusion-Based Video-to-Speech Synthesis with Vision-Guided Speaker Embedding

ICCV 2023arXiv

citations

Speaker-Adaptive Lip Reading with User-Dependent Padding

ECCV 2022arXiv

citations

Lip Reading for Low-resource Languages by Learning and Combining General Speech Knowledge and Language-specific Knowledge

ICCV 2023arXiv

citations

Masking Adversarial Damage: Finding Adversarial Saliency for Robust and Sparse Network

CVPR 2022arXiv

citations

Demystifying Causal Features on Adversarial Examples and Causal Inoculation for Robust Network by Adversarial Instrumental Variable Regression

CVPR 2023arXiv

citations

AV2AV: Direct Audio-Visual Speech to Audio-Visual Speech Translation with Unified Audio-Visual Speech Representation

CVPR 2024arXiv

citations

Causal Mode Multiplexer: A Novel Framework for Unbiased Multispectral Pedestrian Detection

CVPR 2024arXiv

citations

Mitigating Adversarial Vulnerability through Causal Parameter Estimation by Adversarial Double Machine Learning

ICCV 2023arXiv

citations

VisageSynTalk: Unseen Speaker Video-to-Speech Synthesis via Speech-Visage Feature Selection

ECCV 2022arXiv

citations

VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language Models

CVPR 2025arXiv

citations

Zero-AVSR: Zero-Shot Audio-Visual Speech Recognition with LLMs by Learning Language-Agnostic Speech Representations

ICCV 2025arXiv

citations

Personalized Lip Reading: Adapting to Your Unique Lip Movements with Vision and Language

AAAI 2025arXiv

citations

SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis

CVPR 2025arXiv

citations

Multi-Modality Associative Bridging Through Memory: Speech Sound Recollected From Face Video

ICCV 2021

citations

Audio-Visual Mismatch-Aware Video Retrieval via Association and Adjustment

ECCV 2022

citations

Weakly Paired Associative Learning for Sound and Image Representations via Bimodal Associative Memory

CVPR 2022

citations

Robust Small-Scale Pedestrian Detection With Cued Recall via Memory Learning

ICCV 2021

citations

SACA Net: Cybersickness Assessment of Individual Viewers for VR Content via Graph-based Symptom Relation Embedding

ECCV 2020

citations

Structure Boundary Preserving Segmentation for Medical Image With Ambiguous Boundary

CVPR 2020

citations