ResearchAlpha Leak

Conferences Topics Top Authors Rankings Browse All

Home/Authors/Xiaohan Wang

Xiaohan Wang

Topic trends: 32,543 papers · similarity ≥ 0.4 · year ≥ 2024 · Data sourced from Semantic Scholar

34,598 papers | Abstracts: 31,650 (91.5%) | Citations: 34,598 (100.0%) | arXiv: 26,074 (75.4%)

Built: Feb 15, 2026, 11:26 AM AMS

26

papers

846

total citations

papers (26)

T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval

Bird's-Eye-View Scene Graph for Vision-Language Navigation

Bidirectional Cross-Modal Knowledge Exploration for Video Recognition With Pre-Trained Vision-Language Models

Global-to-Local Modeling for Video-Based 3D Human Pose and Shape Estimation

LANA: A Language-Capable Navigator for Instruction Following and Generation

Apollo: An Exploration of Video Understanding in Large Multimodal Models

Describing Differences in Image Sets with Natural Language

Clustering based Point Cloud Representation Learning for 3D Analysis

DGL: Dynamic Global-Local Prompt Tuning for Text-Video Retrieval

Action Sensitivity Learning for Temporal Action Localization

BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature

Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation

Feather the Throttle: Revisiting Visual Token Pruning for Vision-Language Model Acceleration

JOTR: 3D Joint Contrastive Learning with Transformers for Occluded Human Mesh Recovery

PR-RRN: Pairwise-Regularized Residual-Recursive Networks for Non-Rigid Structure-From-Motion

Cross-Sentence Gloss Consistency for Continuous Sign Language Recognition

CaMP: Causal Multi-policy Planning for Interactive Navigation in Multi-room Scenes

A Category Agnostic Model for Visual Rearrangment

MAAL: Multimodality-Aware Autoencoder-Based Affordance Learning for 3D Articulated Objects

Interpretable3D: An Ad

Imagine Before Go: Self-Supervised Generative Map for Object Goal Navigation

An Interactive Navigation Method with Effect-oriented Affordance

Interactive Prototype Learning for Egocentric Action Recognition

Large-Scale Video Panoptic Segmentation in the Wild: A Benchmark

A Simple Episodic Linear Probe Improves Visual Recognition in the Wild

Adversarially Masking Synthetic To Mimic Real: Adaptive Noise Injection for Point Cloud Segmentation Adaptation