Data Twinning

Vakayil, Akhil; Joseph, V. Roshan

doi:10.1002/sam.11574

Citation Details

Data Twinning

In this work, we develop a method named Twinning for partitioning a dataset into statistically similar twin sets. Twinning is based on SPlit, a recently proposed model-independent method for optimally splitting a dataset into training and testing sets. Twinning is orders of magnitude faster than the SPlit algorithm, which makes it applicable to Big Data problems such as data compression. Twinning can also be used for generating multiple splits of a given dataset to aid divide-and-conquer procedures and k-fold cross validation. more »

Award ID(s):: 1921873

PAR ID:: 10353689

Author(s) / Creator(s):: Vakayil, Akhil; Joseph, V. Roshan

Date Published:: 2022-01-01

Journal Name:: Statistical Analysis and Data Mining: The ASA Data Science Journal

ISSN:: 1932-1864

Format(s):: Medium: X

Sponsoring Org:: National Science Foundation

Free Publicly Accessible Full Text
Accepted Manuscript
Journal Article:
https://doi.org/10.1002/sam.11574

More Like this