Yukang Chen

papers

2,911

total citations

papers (25)

IST-Net: Prior-Free Category-Level Pose Estimation with Implicit Space Transformation

ICCV 2023arXiv

citations

Mask-Attention-Free Transformer for 3D Instance Segmentation

ICCV 2023arXiv

citations

Spatial Pruned Sparse Convolution for Efficient 3D Object Detection

NEURIPS 2022arXiv

citations

WorldModelBench: Judging Video Generation Models As World Models

NEURIPS 2025arXiv

citations

Denoising Diffusion Step-aware Models

ICLR 2024arXiv

citations

MindOmni: Unleashing Reasoning Generation in Vision Language Models with RGPO

NEURIPS 2025arXiv

citations

Lyra: An Efficient and Speech-Centric Framework for Omni-Cognition

ICCV 2025arXiv

citations

SaCo Loss: Sample-wise Affinity Consistency for Vision-Language Pre-training

CVPR 2024

citations

SparseVILA: Decoupling Visual Sparsity for Efficient VLM Inference

ICCV 2025arXiv

citations

Mixture-of-Scores: Robust Image-Text Data Valuation via Three Lines of Code

ICCV 2025

citations

Low-Rank Approximation for Sparse Attention in Multi-Modal LLMs

CVPR 2024

citations

Yukang Chen

papers (25)

LISA: Reasoning Segmentation via Large Language Model

VoxelNeXt: Fully Sparse VoxelNet for 3D Object Detection and Tracking

Focal Sparse Convolutional Networks for 3D Object Detection

Spherical Transformer for LiDAR-Based 3D Recognition

Learning Dynamic Routing for Semantic Segmentation

NVILA: Efficient Frontier Visual Language Models

LargeKernel3D: Scaling Up Kernels in 3D Sparse CNNs

VisionZip: Longer is Better but Not Necessary in Vision Language Models

Voxel Field Fusion for 3D Object Detection

FocalFormer3D: Focusing on Hard Instance for 3D Object Detection

Multi-Scale Aligned Distillation for Low-Resolution Detection

Data Pruning via Moving-one-Sample-out

OA-CNNs: Omni-Adaptive Sparse CNNs for 3D Semantic Segmentation

Scale-Aware Automatic Augmentation for Object Detection

IST-Net: Prior-Free Category-Level Pose Estimation with Implicit Space Transformation

Mask-Attention-Free Transformer for 3D Instance Segmentation

Spatial Pruned Sparse Convolution for Efficient 3D Object Detection

WorldModelBench: Judging Video Generation Models As World Models

Denoising Diffusion Step-aware Models

MindOmni: Unleashing Reasoning Generation in Vision Language Models with RGPO

Lyra: An Efficient and Speech-Centric Framework for Omni-Cognition

SaCo Loss: Sample-wise Affinity Consistency for Vision-Language Pre-training

SparseVILA: Decoupling Visual Sparsity for Efficient VLM Inference

Mixture-of-Scores: Robust Image-Text Data Valuation via Three Lines of Code

Low-Rank Approximation for Sparse Attention in Multi-Modal LLMs

papers (25)

LISA: Reasoning Segmentation via Large Language Model

VoxelNeXt: Fully Sparse VoxelNet for 3D Object Detection and Tracking

Focal Sparse Convolutional Networks for 3D Object Detection

Spherical Transformer for LiDAR-Based 3D Recognition

Learning Dynamic Routing for Semantic Segmentation

NVILA: Efficient Frontier Visual Language Models

LargeKernel3D: Scaling Up Kernels in 3D Sparse CNNs

VisionZip: Longer is Better but Not Necessary in Vision Language Models

Voxel Field Fusion for 3D Object Detection

FocalFormer3D: Focusing on Hard Instance for 3D Object Detection

Multi-Scale Aligned Distillation for Low-Resolution Detection

Data Pruning via Moving-one-Sample-out

OA-CNNs: Omni-Adaptive Sparse CNNs for 3D Semantic Segmentation

Scale-Aware Automatic Augmentation for Object Detection

IST-Net: Prior-Free Category-Level Pose Estimation with Implicit Space Transformation

Mask-Attention-Free Transformer for 3D Instance Segmentation

Spatial Pruned Sparse Convolution for Efficient 3D Object Detection

WorldModelBench: Judging Video Generation Models As World Models

Denoising Diffusion Step-aware Models

MindOmni: Unleashing Reasoning Generation in Vision Language Models with RGPO

Lyra: An Efficient and Speech-Centric Framework for Omni-Cognition

SaCo Loss: Sample-wise Affinity Consistency for Vision-Language Pre-training

SparseVILA: Decoupling Visual Sparsity for Efficient VLM Inference

Mixture-of-Scores: Robust Image-Text Data Valuation via Three Lines of Code

Low-Rank Approximation for Sparse Attention in Multi-Modal LLMs