The CNN-Corpus: A Large textual Corpus for Single-Document Extractive Summarization

Lins, Rafael Dueire; Oliveira, Hilario; Cabral, Luciano; Batista, Jamilson; Tenorio, Bruno; Ferreira, Rafael; Lima, Rinaldo; de França Pereira e Silva, Gabriel; Simske, Steven J

doi:10.1145/3342558.3345388

Citation Details

The CNN-Corpus: A Large textual Corpus for Single-Document Extractive Summarization

This paper details the features and the methodology adopted in the construction of the CNN-corpus, a test corpus for single document extractive text summarization of news articles. The current version of the CNN-corpus encompasses 3,000 texts in English, and each of them has an abstractive and an extractive summary. The corpus allows quantitative and qualitative assessments of extractive summarization strategies. more »

Award ID(s):: 1842577

PAR ID:: 10185297

Author(s) / Creator(s):: Lins, Rafael Dueire; Oliveira, Hilario; Cabral, Luciano; Batista, Jamilson; Tenorio, Bruno; Ferreira, Rafael; Lima, Rinaldo; de França Pereira e Silva, Gabriel; Simske, Steven J

Date Published:: 2019-10-01

Journal Name:: Proceedings of the ACM Symposium on Document Engineering

Volume:: 19

Page Range / eLocation ID:: 1-10

Format(s):: Medium: X

Sponsoring Org:: National Science Foundation

Free Publicly Accessible Full Text
Accepted Manuscript1.0
Conference Paper:
https://doi.org/10.1145/3342558.3345388

More Like this