Maosong Sun

OpenReview

papers

3,751

total citations

papers (24)

ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs

ICLR 2024arXiv

1,197

citations

C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models

NEURIPS 2023arXiv

767

citations

AgentVerse: Facilitating Multi-Agent Collaboration and Exploring Emergent Behaviors

ICLR 2024arXiv

503

citations

RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from Fine-grained Correctional Human Feedback

CVPR 2024arXiv

361

citations

ULTRAFEEDBACK: Boosting Language Models with Scaled AI Feedback

ICML 2024arXiv

214

citations

Revisiting Out-of-distribution Robustness in NLP: Benchmarks, Analysis, and LLMs Evaluations

NEURIPS 2023arXiv

134

citations

Towards Interpretable Natural Language Understanding with Explanations as Latent Variables

NEURIPS 2020arXiv

citations

Proactive Agent: Shifting LLM Agents from Reactive Responses to Active Assistance

ICLR 2025arXiv

citations

Visual Distant Supervision for Scene Graph Generation

ICCV 2021arXiv

citations

Predicting Emergent Abilities with Infinite Resolution Evaluation

ICLR 2024arXiv

citations

XLRS-Bench: Could Your Multimodal LLMs Understand Extremely Large Ultra-High-Resolution Remote Sensing Imagery?

CVPR 2025arXiv

citations

A Multi-Power Law for Loss Curve Prediction Across Learning Rate Schedules

ICLR 2025arXiv

citations

WorkflowLLM: Enhancing Workflow Orchestration Capability of Large Language Models

ICLR 2025arXiv

citations

Exploring the Benefit of Activation Sparsity in Pre-training

ICML 2024arXiv

citations

AdaMMS: Model Merging for Heterogeneous Multimodal Large Language Models with Unsupervised Coefficient Optimization

CVPR 2025arXiv

citations

DCAD-2000: A Multilingual Dataset across 2000+ Languages with Data Cleaning as Anomaly Detection

NEURIPS 2025arXiv

citations

Rational Decision-Making Agent with Learning Internal Utility Judgment

ICLR 2025

citations

Sparse Structure Search for Delta Tuning

NEURIPS 2022

citations

H3T: Efficient Integration of Memory Optimization and Parallelism for Large-scale Transformer Training

NEURIPS 2023

citations

Moderate-fitting as a Natural Backdoor Defender for Pre-trained Language Models

NEURIPS 2022

citations

Maosong Sun

papers (24)

ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs

C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models

AgentVerse: Facilitating Multi-Agent Collaboration and Exploring Emergent Behaviors

RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from Fine-grained Correctional Human Feedback

ULTRAFEEDBACK: Boosting Language Models with Scaled AI Feedback

Revisiting Out-of-distribution Robustness in NLP: Benchmarks, Analysis, and LLMs Evaluations

Fine-Grained Scene Graph Generation with Data Transfer

A Unified Evaluation of Textual Backdoor Learning: Frameworks and Benchmarks

Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages

RLAIF-V: Open-Source AI Feedback Leads to Super GPT-4V Trustworthiness

Towards Interpretable Natural Language Understanding with Explanations as Latent Variables

Proactive Agent: Shifting LLM Agents from Reactive Responses to Active Assistance

Visual Distant Supervision for Scene Graph Generation

Predicting Emergent Abilities with Infinite Resolution Evaluation

XLRS-Bench: Could Your Multimodal LLMs Understand Extremely Large Ultra-High-Resolution Remote Sensing Imagery?

A Multi-Power Law for Loss Curve Prediction Across Learning Rate Schedules

WorkflowLLM: Enhancing Workflow Orchestration Capability of Large Language Models

Exploring the Benefit of Activation Sparsity in Pre-training

AdaMMS: Model Merging for Heterogeneous Multimodal Large Language Models with Unsupervised Coefficient Optimization

DCAD-2000: A Multilingual Dataset across 2000+ Languages with Data Cleaning as Anomaly Detection

Rational Decision-Making Agent with Learning Internal Utility Judgment

Sparse Structure Search for Delta Tuning

H3T: Efficient Integration of Memory Optimization and Parallelism for Large-scale Transformer Training

Moderate-fitting as a Natural Backdoor Defender for Pre-trained Language Models

papers (24)

ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs

C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models

AgentVerse: Facilitating Multi-Agent Collaboration and Exploring Emergent Behaviors

RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from Fine-grained Correctional Human Feedback

ULTRAFEEDBACK: Boosting Language Models with Scaled AI Feedback

Revisiting Out-of-distribution Robustness in NLP: Benchmarks, Analysis, and LLMs Evaluations

Fine-Grained Scene Graph Generation with Data Transfer

A Unified Evaluation of Textual Backdoor Learning: Frameworks and Benchmarks

Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages

RLAIF-V: Open-Source AI Feedback Leads to Super GPT-4V Trustworthiness

Towards Interpretable Natural Language Understanding with Explanations as Latent Variables

Proactive Agent: Shifting LLM Agents from Reactive Responses to Active Assistance

Visual Distant Supervision for Scene Graph Generation

Predicting Emergent Abilities with Infinite Resolution Evaluation

XLRS-Bench: Could Your Multimodal LLMs Understand Extremely Large Ultra-High-Resolution Remote Sensing Imagery?

A Multi-Power Law for Loss Curve Prediction Across Learning Rate Schedules

WorkflowLLM: Enhancing Workflow Orchestration Capability of Large Language Models

Exploring the Benefit of Activation Sparsity in Pre-training

AdaMMS: Model Merging for Heterogeneous Multimodal Large Language Models with Unsupervised Coefficient Optimization

DCAD-2000: A Multilingual Dataset across 2000+ Languages with Data Cleaning as Anomaly Detection

Rational Decision-Making Agent with Learning Internal Utility Judgment

Sparse Structure Search for Delta Tuning

H3T: Efficient Integration of Memory Optimization and Parallelism for Large-scale Transformer Training

Moderate-fitting as a Natural Backdoor Defender for Pre-trained Language Models