Tae-Hyun Oh

papers

885

total citations

papers (25)

Listen to Look: Action Recognition by Previewing Audio

CVPR 2020arXiv

285

citations

Cross-Attention of Disentangled Modalities for 3D Human Mesh Recovery with Transformers

ECCV 2022arXiv

147

citations

Paint-it: Text-to-Texture Synthesis via Deep Convolutional Texture Map Optimization and Physically-Based Rendering

CVPR 2024arXiv

citations

Sound to Visual Scene Generation by Audio-to-Visual Latent Alignment

CVPR 2023arXiv

citations

CLIP-Actor: Text-Driven Recommendation and Stylization for Animating Human Meshes

ECCV 2022arXiv

citations

Dr. Splat: Directly Referring 3D Gaussian Splatting via Direct Language Embedding Registration

CVPR 2025arXiv

citations

TextManiA: Enriching Visual Feature by Text-driven Manifold Augmentation

ICCV 2023arXiv

citations

BEAF: Observing BEfore-AFter Changes to Evaluate Hallucination in Vision-language Models

ECCV 2024arXiv

citations

DisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decoding

ICCV 2025arXiv

citations

FPRF: Feed-Forward Photorealistic Style Transfer of Large-Scale 3D Neural Radiance Fields

AAAI 2024arXiv

citations

Perceptually Accurate 3D Talking Head Generation: New Definitions, Speech-Mesh Representation, and Evaluation Metrics

CVPR 2025arXiv

citations

VoiceCraft-Dub: Automated Video Dubbing with Neural Codec Language Models

ICCV 2025arXiv

citations

Robust 3D Shape Reconstruction in Zero-Shot from a Single Image in the Wild

CVPR 2025arXiv

citations

JointDiT: Enhancing RGB-Depth Joint Modeling with Diffusion Transformers

ICCV 2025arXiv

citations

SoundBrush: Sound as a Brush for Visual Scene Editing

AAAI 2025arXiv

citations

Zero-shot Depth Completion via Test-time Alignment with Affine-invariant Depth Prior

AAAI 2025arXiv

citations

VSC: Visual Search Compositional Text-to-Image Diffusion Model

ICCV 2025arXiv

citations

Learning-based Axial Video Motion Magnification

ECCV 2024arXiv

citations

CDS: Cross-Domain Self-Supervised Pre-Training

ICCV 2021

citations

Distilling Global and Local Logits With Densely Connected Relations

ICCV 2021

citations

Tae-Hyun Oh

papers (25)

Listen to Look: Action Recognition by Previewing Audio

Cross-Attention of Disentangled Modalities for 3D Human Mesh Recovery with Transformers

Paint-it: Text-to-Texture Synthesis via Deep Convolutional Texture Map Optimization and Physically-Based Rendering

Sound to Visual Scene Generation by Audio-to-Visual Latent Alignment

CLIP-Actor: Text-Driven Recommendation and Stylization for Animating Human Meshes

HDR-Plenoxels: Self-Calibrating High Dynamic Range Radiance Fields

Scratching Visual Transformer's Back with Uniform Attention

Monocular Reconstruction of Neural Face Reflectance Fields

Sound Source Localization is All about Cross-Modal Alignment

Noise Map Guidance: Inversion with Spatial Context for Real Image Editing

Dr. Splat: Directly Referring 3D Gaussian Splatting via Direct Language Embedding Registration

TextManiA: Enriching Visual Feature by Text-driven Manifold Augmentation

BEAF: Observing BEfore-AFter Changes to Evaluate Hallucination in Vision-language Models

DisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decoding

FPRF: Feed-Forward Photorealistic Style Transfer of Large-Scale 3D Neural Radiance Fields

Perceptually Accurate 3D Talking Head Generation: New Definitions, Speech-Mesh Representation, and Evaluation Metrics

VoiceCraft-Dub: Automated Video Dubbing with Neural Codec Language Models

Robust 3D Shape Reconstruction in Zero-Shot from a Single Image in the Wild

JointDiT: Enhancing RGB-Depth Joint Modeling with Diffusion Transformers

SoundBrush: Sound as a Brush for Visual Scene Editing

Zero-shot Depth Completion via Test-time Alignment with Affine-invariant Depth Prior

VSC: Visual Search Compositional Text-to-Image Diffusion Model

Learning-based Axial Video Motion Magnification

CDS: Cross-Domain Self-Supervised Pre-Training

Distilling Global and Local Logits With Densely Connected Relations

papers (25)

Listen to Look: Action Recognition by Previewing Audio

Cross-Attention of Disentangled Modalities for 3D Human Mesh Recovery with Transformers

Paint-it: Text-to-Texture Synthesis via Deep Convolutional Texture Map Optimization and Physically-Based Rendering

Sound to Visual Scene Generation by Audio-to-Visual Latent Alignment

CLIP-Actor: Text-Driven Recommendation and Stylization for Animating Human Meshes

HDR-Plenoxels: Self-Calibrating High Dynamic Range Radiance Fields

Scratching Visual Transformer's Back with Uniform Attention

Monocular Reconstruction of Neural Face Reflectance Fields

Sound Source Localization is All about Cross-Modal Alignment

Noise Map Guidance: Inversion with Spatial Context for Real Image Editing

Dr. Splat: Directly Referring 3D Gaussian Splatting via Direct Language Embedding Registration

TextManiA: Enriching Visual Feature by Text-driven Manifold Augmentation

BEAF: Observing BEfore-AFter Changes to Evaluate Hallucination in Vision-language Models

DisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decoding

FPRF: Feed-Forward Photorealistic Style Transfer of Large-Scale 3D Neural Radiance Fields

Perceptually Accurate 3D Talking Head Generation: New Definitions, Speech-Mesh Representation, and Evaluation Metrics

VoiceCraft-Dub: Automated Video Dubbing with Neural Codec Language Models

Robust 3D Shape Reconstruction in Zero-Shot from a Single Image in the Wild

JointDiT: Enhancing RGB-Depth Joint Modeling with Diffusion Transformers

SoundBrush: Sound as a Brush for Visual Scene Editing

Zero-shot Depth Completion via Test-time Alignment with Affine-invariant Depth Prior

VSC: Visual Search Compositional Text-to-Image Diffusion Model

Learning-based Axial Video Motion Magnification

CDS: Cross-Domain Self-Supervised Pre-Training

Distilling Global and Local Logits With Densely Connected Relations