ALinFiK: Learning to Approximate Linearized Future Influence Kernel for Scalable Third-Parity LLM Data Valuation

Pan, Yanzhou; Lin, Huawei; Ran, Yide; Chen, Jiamin; Yu, Xiaodong; Zhao, Weijie; Zhang, Denghui; Xu, Zhaozhuo

Citation Details

Large Language Models (LLMs) heavily rely on high-quality training data, making data valuation crucial for optimizing model performance, especially when working within a limited budget. In this work, we aim to offer a third-party data valuation approach that benefits both data providers and model developers. We introduce a linearized future influence kernel (LinFiK), which assesses the value of individual data samples in improving LLM performance during training. We further propose ALinFiK, a learning strategy to approximate LinFiK, enabling scalable data valuation. Our comprehensive evaluations demonstrate that this approach surpasses existing baselines in effectiveness and efficiency, demonstrating significant scalability advantages as LLM parameters increase. more »

Award ID(s):: 2247619

PAR ID:: 10593020

Author(s) / Creator(s):: Pan, Yanzhou; Lin, Huawei; Ran, Yide; Chen, Jiamin; Yu, Xiaodong; Zhao, Weijie; Zhang, Denghui; Xu, Zhaozhuo

Editor(s):: Chiruzzo, Luis; Ritter, Alan; Wang, Lu

Publisher / Repository:: Association for Computational Linguistics

Date Published:: 2025-04-29

ISBN:: 979-8-89176-189-6

Format(s):: Medium: X

Location:: Albuquerque, New Mexico

Sponsoring Org:: National Science Foundation

Free Publicly Accessible Full Text
Accepted Manuscript
Conference Paper:
The DOI is not currently available.

More Like this