ThalamusDB: Approximate Query Processing on Multi-Modal Data

Jo, Saehan; Trummer, Immanuel

doi:10.1145/3654989

Citation Details

ThalamusDB: Approximate Query Processing on Multi-Modal Data

We introduce ThalamusDB, a novel approximate query processing system that processes complex SQL queries on multi-modal data. ThalamusDB supports SQL queries integrating natural language predicates on visual, audio, and text data. To answer such queries, ThalamusDB exploits a collection of zero-shot models in combination with relational processing. ThalamusDB utilizes deterministic approximate query processing, harnessing the relative efficiency of relational processing to mitigate the computational demands of machine learning inference. For evaluating a natural language predicate, ThalamusDB requests a small number of labels from users. User can specify their preferences on the performance objective regarding the three relevant metrics: approximation error, computation time, and labeling overheads. The ThalamusDB query optimizer chooses optimized plans according to user preferences, prioritizing data processing and requested labels to maximize impact. Experiments with several real-world data sets, taken from Craigslist, YouTube, and Netflix, show that ThalamusDB achieves an average speedup of 35.0x over MindsDB, an exact processing baseline, and outperforms ABAE, a sampling-based method, in 78.9% of cases. more »

Award ID(s):: 2239326

PAR ID:: 10577787

Author(s) / Creator(s):: Jo, Saehan; Trummer, Immanuel

Publisher / Repository:: ACM

Date Published:: 2024-05-29

Journal Name:: Proceedings of the ACM on Management of Data

Volume:: 2

Issue:: 3

ISSN:: 2836-6573

Page Range / eLocation ID:: 1 to 26

Format(s):: Medium: X

Sponsoring Org:: National Science Foundation

Free Publicly Accessible Full Text
Accepted Manuscript1.0
Journal Article:
https://doi.org/10.1145/3654989

More Like this