Compositional Data Augmentation for Abstractive Conversation Summarization

Ouyang, Siru; Chen, Jiaao; Han, Jiawei; Yang, Diyi

doi:10.18653/v1/2023.acl-long.82

Citation Details

Compositional Data Augmentation for Abstractive Conversation Summarization

Recent abstractive conversation summarization systems generally rely on large-scale datasets with annotated summaries. However, collecting and annotating these conversations can be a time-consuming and labor-intensive task. To address this issue, in this work, we present a sub-structure level compositional data augmentation method, COMPO, for generating diverse and high-quality pairs of conversations and summaries. Specifically, COMPO first extracts conversation structures like topic splits and action triples as basic units. Then we organize these semantically meaningful conversation snippets compositionally to create new training instances. Additionally, we explore noise-tolerant settings in both self-training and joint-training paradigms to make the most of these augmented samples. Our experiments on benchmark datasets, SAMSum and DialogSum, show that COMPO substantially outperforms prior baseline methods by achieving a nearly 10% increase of ROUGE scores with limited data. more »

Award ID(s):: 1956151 1741317 1704532

PAR ID:: 10467072

Author(s) / Creator(s):: Ouyang, Siru; Chen, Jiaao; Han, Jiawei; Yang, Diyi

Publisher / Repository:: Association for Computational Linguistics

Date Published:: 2023-07-10

Page Range / eLocation ID:: 1471 to 1488

Subject(s) / Keyword(s):: abstractive conversation summarization, sub-structure level compositional data augmentation, conversation structure, conversation snippets, self-training and joint-training paradigms, conversational AI

Format(s):: Medium: X

Location:: Toronto, Canada

Sponsoring Org:: National Science Foundation

Conference Paper:
https://doi.org/10.18653/v1/2023.acl-long.82

More Like this