Peng Jin

OpenReview

Affiliations

Leshan Normal University

papers

1,323

total citations

papers (19)

Chat-UniVi: Unified Visual Representation Empowers Large Language Models with Image and Video Understanding

CVPR 2024arXiv

364

citations

LLaVA-CoT: Let Vision Language Models Reason Step-by-Step

ICCV 2025arXiv

360

citations

SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models

ICML 2024arXiv

141

citations

Expectation-Maximization Contrastive Learning for Compact Video-and-Language Representations

NEURIPS 2022arXiv

citations

DiffusionRet: Generative Text-Video Retrieval with Diffusion Model

ICCV 2023arXiv

citations

Video-Text As Game Players: Hierarchical Banzhaf Interaction for Cross-Modal Representation Learning

CVPR 2023arXiv

citations

Act As You Wish: Fine-Grained Control of Motion Diffusion Model with Hierarchical Semantic Graphs

NEURIPS 2023arXiv

citations

Multi-granularity Interaction Simulation for Unsupervised Interactive Segmentation

ICCV 2023arXiv

citations

MUSE: Mamba Is Efficient Multi-scale Learner for Text-video Retrieval

AAAI 2025arXiv

citations

Repaint123: Fast and High-quality One Image to 3D Generation with Progressive Controllable Repainting

ECCV 2024

citations

Auto-Linear Phenomenon in Subsurface Imaging

ICML 2024arXiv

citations

VSNet: Focusing on the Linguistic Characteristics of Sign Language

CVPR 2025

citations

OpenFWI: Large-scale Multi-structural Benchmark Datasets for Full Waveform Inversion

NEURIPS 2022

citations

Aligning Instance Brownian Bridge with Texts for Open-Vocabulary Video Instance Segmentation

AAAI 2025

citations

$\mathbf{\mathbb{E}^{FWI}}$: Multiparameter Benchmark Datasets for Elastic Full Waveform Inversion of Geophysical Properties

NEURIPS 2023

citations

Peng Jin

Affiliations

papers (19)

Chat-UniVi: Unified Visual Representation Empowers Large Language Models with Image and Video Understanding

LLaVA-CoT: Let Vision Language Models Reason Step-by-Step

SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models

Expectation-Maximization Contrastive Learning for Compact Video-and-Language Representations

DiffusionRet: Generative Text-Video Retrieval with Diffusion Model

Video-Text As Game Players: Hierarchical Banzhaf Interaction for Cross-Modal Representation Learning

Act As You Wish: Fine-Grained Control of Motion Diffusion Model with Hierarchical Semantic Graphs

MoH: Multi-Head Attention as Mixture-of-Head Attention

Parallel Vertex Diffusion for Unified Visual Grounding

MoE++: Accelerating Mixture-of-Experts Methods with Zero-Computation Experts

Local Action-Guided Motion Diffusion Model for Text-to-Motion Generation

Multi-granularity Interaction Simulation for Unsupervised Interactive Segmentation

MUSE: Mamba Is Efficient Multi-scale Learner for Text-video Retrieval

Repaint123: Fast and High-quality One Image to 3D Generation with Progressive Controllable Repainting

Auto-Linear Phenomenon in Subsurface Imaging

VSNet: Focusing on the Linguistic Characteristics of Sign Language

OpenFWI: Large-scale Multi-structural Benchmark Datasets for Full Waveform Inversion

Aligning Instance Brownian Bridge with Texts for Open-Vocabulary Video Instance Segmentation

$\mathbf{\mathbb{E}^{FWI}}$: Multiparameter Benchmark Datasets for Elastic Full Waveform Inversion of Geophysical Properties

papers (19)

Chat-UniVi: Unified Visual Representation Empowers Large Language Models with Image and Video Understanding

LLaVA-CoT: Let Vision Language Models Reason Step-by-Step

SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models

Expectation-Maximization Contrastive Learning for Compact Video-and-Language Representations

DiffusionRet: Generative Text-Video Retrieval with Diffusion Model

Video-Text As Game Players: Hierarchical Banzhaf Interaction for Cross-Modal Representation Learning

Act As You Wish: Fine-Grained Control of Motion Diffusion Model with Hierarchical Semantic Graphs

MoH: Multi-Head Attention as Mixture-of-Head Attention

Parallel Vertex Diffusion for Unified Visual Grounding

MoE++: Accelerating Mixture-of-Experts Methods with Zero-Computation Experts

Local Action-Guided Motion Diffusion Model for Text-to-Motion Generation

Multi-granularity Interaction Simulation for Unsupervised Interactive Segmentation

MUSE: Mamba Is Efficient Multi-scale Learner for Text-video Retrieval

Repaint123: Fast and High-quality One Image to 3D Generation with Progressive Controllable Repainting

Auto-Linear Phenomenon in Subsurface Imaging

VSNet: Focusing on the Linguistic Characteristics of Sign Language

OpenFWI: Large-scale Multi-structural Benchmark Datasets for Full Waveform Inversion

Aligning Instance Brownian Bridge with Texts for Open-Vocabulary Video Instance Segmentation

$\mathbf{\mathbb{E}^{FWI}}$: Multiparameter Benchmark Datasets for Elastic Full Waveform Inversion of Geophysical Properties