Kevin Lin

Affiliations

MicrosoftUniversity of Washington

papers

3,646

total citations

papers (18)

MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities

ICML 2024arXiv

1,066

citations

End-to-End Human Pose and Mesh Reconstruction with Transformers

CVPR 2021arXiv

737

citations

Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning

ICLR 2024arXiv

422

citations

An Empirical Study of End-to-End Video-Language Transformers With Masked Visual Modeling

CVPR 2023arXiv

citations

Equivariant Similarity for Vision-Language Foundation Models

ICCV 2023arXiv

citations

MM-Narrator: Narrating Long-form Videos with Multimodal In-Context Learning

CVPR 2024arXiv

citations

Cross-Modal Representation Learning for Zero-Shot Action Recognition

CVPR 2022arXiv

citations

ImageGen-CoT: Enhancing Text-to-Image In-context Learning with Chain-of-Thought Reasoning

ICCV 2025arXiv

citations

Scaling Inference-Time Search with Vision Value Model for Improved Visual Comprehension

ICCV 2025arXiv

citations

Adaptive Human Matting for Dynamic Videos

CVPR 2023arXiv

citations

BizGen: Advancing Article-level Visual Text Rendering for Infographics Generation

CVPR 2025arXiv

citations

Neural Voting Field for Camera-Space 3D Hand Pose Estimation

CVPR 2023arXiv

citations

LiVOS: Light Video Object Segmentation with Gated Linear Matching

CVPR 2025arXiv

citations

Kevin Lin

Affiliations

papers (18)

MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities

End-to-End Human Pose and Mesh Reconstruction with Transformers

Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning

Mesh Graphormer

SwinBERT: End-to-End Transformers With Sparse Attention for Video Captioning

ReCo: Region-Controlled Text-to-Image Generation

DisCo: Disentangled Control for Realistic Human Dance Generation

LAVENDER: Unifying Video-Language Understanding As Masked Language Modeling

An Empirical Study of End-to-End Video-Language Transformers With Masked Visual Modeling

Equivariant Similarity for Vision-Language Foundation Models

MM-Narrator: Narrating Long-form Videos with Multimodal In-Context Learning

Cross-Modal Representation Learning for Zero-Shot Action Recognition

ImageGen-CoT: Enhancing Text-to-Image In-context Learning with Chain-of-Thought Reasoning

Scaling Inference-Time Search with Vision Value Model for Improved Visual Comprehension

Adaptive Human Matting for Dynamic Videos

BizGen: Advancing Article-level Visual Text Rendering for Infographics Generation

Neural Voting Field for Camera-Space 3D Hand Pose Estimation

LiVOS: Light Video Object Segmentation with Gated Linear Matching

papers (18)

MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities

End-to-End Human Pose and Mesh Reconstruction with Transformers

Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning

Mesh Graphormer

SwinBERT: End-to-End Transformers With Sparse Attention for Video Captioning

ReCo: Region-Controlled Text-to-Image Generation

DisCo: Disentangled Control for Realistic Human Dance Generation

LAVENDER: Unifying Video-Language Understanding As Masked Language Modeling

An Empirical Study of End-to-End Video-Language Transformers With Masked Visual Modeling

Equivariant Similarity for Vision-Language Foundation Models

MM-Narrator: Narrating Long-form Videos with Multimodal In-Context Learning

Cross-Modal Representation Learning for Zero-Shot Action Recognition

ImageGen-CoT: Enhancing Text-to-Image In-context Learning with Chain-of-Thought Reasoning

Scaling Inference-Time Search with Vision Value Model for Improved Visual Comprehension

Adaptive Human Matting for Dynamic Videos

BizGen: Advancing Article-level Visual Text Rendering for Infographics Generation

Neural Voting Field for Camera-Space 3D Hand Pose Estimation

LiVOS: Light Video Object Segmentation with Gated Linear Matching