Qi Zhao

Affiliations

Karlsruhe Institute of Technology (KIT)

papers

389

total citations

papers (27)

AntGPT: Can Large Language Models Help Long-term Action Anticipation from Videos?

ICLR 2024arXiv

citations

SwitchTab: Switched Autoencoders Are Effective Tabular Learners

AAAI 2024arXiv

citations

DNeRV: Modeling Inherent Dynamics via Difference Neural Representation for Videos

CVPR 2023arXiv

citations

CameraCtrl II: Dynamic Scene Exploration via Camera-controlled Video Diffusion Models

ICCV 2025arXiv

citations

PNeRV: Enhancing Spatial Consistency via Pyramidal Neural Representation for Videos

CVPR 2024arXiv

citations

What Do Deep Saliency Models Learn about Visual Attention?

NEURIPS 2023arXiv

citations

GazeXplain: Learning to Predict Natural Language Explanations of Visual Scanpaths

ECCV 2024arXiv

citations

Divide and Conquer: Answering Questions With Object Factorization and Compositional Reasoning

CVPR 2023arXiv

citations

n-Reference Transfer Learning for Saliency Prediction

ECCV 2020arXiv

citations

Mastering Massive Multi-Task Reinforcement Learning via Mixture-of-Expert Decision Transformer

ICML 2025arXiv

citations

Predicting Human Scanpaths in Visual Question Answering

CVPR 2021

citations

Model Lineage Closeness Analysis

AAAI 2025

citations

Fantastic Answers and Where to Find Them: Immersive Question-Directed Visual Attention

CVPR 2020

citations

Explicit Knowledge Incorporation for Visual Reasoning

CVPR 2021

citations

VisualHow: Multimodal Problem Solving

CVPR 2022

citations

New Datasets and Models for Contextual Reasoning in Visual Dialog

ECCV 2022

citations

Two Sides of the Same Coin: Learning the Backdoor to Remove the Backdoor

AAAI 2025

citations

NN-Baker: A Neural-network Infused Algorithmic Framework for Optimization Problems on Geometric Intersection Graphs

NEURIPS 2021

citations

Query and Attention Augmentation for Knowledge-Based Explainable Reasoning

CVPR 2022

citations

ROME is Forged in Adversity: Robust Distilled Datasets via Information Bottleneck

ICML 2025

citations

Toward Multi-Granularity Decision-Making: Explicit Visual Reasoning with Hierarchical Knowledge

ICCV 2023

citations

Explainable Saliency: Articulating Reasoning with Contextual Prioritization

CVPR 2025

citations

Qi Zhao

Affiliations

papers (27)

AntGPT: Can Large Language Models Help Long-term Action Anticipation from Videos?

SwitchTab: Switched Autoencoders Are Effective Tabular Learners

DNeRV: Modeling Inherent Dynamics via Difference Neural Representation for Videos

CameraCtrl II: Dynamic Scene Exploration via Camera-controlled Video Diffusion Models

AiR: Attention with Reasoning Capability

REX: Reasoning-Aware and Grounded Explanation

Beyond Average: Individualized Visual Scanpath Prediction

Learning to Predict Trustworthiness with Steep Slope Loss

Synthetic Video Enhances Physical Fidelity in Video Synthesis

PNeRV: Enhancing Spatial Consistency via Pyramidal Neural Representation for Videos

What Do Deep Saliency Models Learn about Visual Attention?

GazeXplain: Learning to Predict Natural Language Explanations of Visual Scanpaths

Divide and Conquer: Answering Questions With Object Factorization and Compositional Reasoning

n-Reference Transfer Learning for Saliency Prediction

Mastering Massive Multi-Task Reinforcement Learning via Mixture-of-Expert Decision Transformer

Predicting Human Scanpaths in Visual Question Answering

Model Lineage Closeness Analysis

Fantastic Answers and Where to Find Them: Immersive Question-Directed Visual Attention

Explicit Knowledge Incorporation for Visual Reasoning

VisualHow: Multimodal Problem Solving

New Datasets and Models for Contextual Reasoning in Visual Dialog

Two Sides of the Same Coin: Learning the Backdoor to Remove the Backdoor

NN-Baker: A Neural-network Infused Algorithmic Framework for Optimization Problems on Geometric Intersection Graphs

Query and Attention Augmentation for Knowledge-Based Explainable Reasoning

ROME is Forged in Adversity: Robust Distilled Datasets via Information Bottleneck

Toward Multi-Granularity Decision-Making: Explicit Visual Reasoning with Hierarchical Knowledge

Explainable Saliency: Articulating Reasoning with Contextual Prioritization

papers (27)

AntGPT: Can Large Language Models Help Long-term Action Anticipation from Videos?

SwitchTab: Switched Autoencoders Are Effective Tabular Learners

DNeRV: Modeling Inherent Dynamics via Difference Neural Representation for Videos

CameraCtrl II: Dynamic Scene Exploration via Camera-controlled Video Diffusion Models

AiR: Attention with Reasoning Capability

REX: Reasoning-Aware and Grounded Explanation

Beyond Average: Individualized Visual Scanpath Prediction

Learning to Predict Trustworthiness with Steep Slope Loss

Synthetic Video Enhances Physical Fidelity in Video Synthesis

PNeRV: Enhancing Spatial Consistency via Pyramidal Neural Representation for Videos

What Do Deep Saliency Models Learn about Visual Attention?

GazeXplain: Learning to Predict Natural Language Explanations of Visual Scanpaths

Divide and Conquer: Answering Questions With Object Factorization and Compositional Reasoning

n-Reference Transfer Learning for Saliency Prediction

Mastering Massive Multi-Task Reinforcement Learning via Mixture-of-Expert Decision Transformer

Predicting Human Scanpaths in Visual Question Answering

Model Lineage Closeness Analysis

Fantastic Answers and Where to Find Them: Immersive Question-Directed Visual Attention

Explicit Knowledge Incorporation for Visual Reasoning

VisualHow: Multimodal Problem Solving

New Datasets and Models for Contextual Reasoning in Visual Dialog

Two Sides of the Same Coin: Learning the Backdoor to Remove the Backdoor

NN-Baker: A Neural-network Infused Algorithmic Framework for Optimization Problems on Geometric Intersection Graphs

Query and Attention Augmentation for Knowledge-Based Explainable Reasoning

ROME is Forged in Adversity: Robust Distilled Datasets via Information Bottleneck

Toward Multi-Granularity Decision-Making: Explicit Visual Reasoning with Hierarchical Knowledge

Explainable Saliency: Articulating Reasoning with Contextual Prioritization