In Search of Credible News

This dataset focuses on the problem of automatically distinguishing credible from fake or funny news. The examples are articles, collected from six Bulgarian news websites. The included documents cover various topics such as politics (both local and global), sports, lifestyle or pop culture.

Identifier Task Type Metric License Website Code Download
Cred.-N Humor Detection F1 (binary) CC BY-NC-SA 4.0

Data Source

The corpus contains Bulgarian news from credible and funny/fake sources.

The labels are automatically obtained based on the articles’ source.

Data Description

Train Dev Test
Examples 19,227 5,949 17,887

Label Distribution

train validation test
Credible 0.874 0.908 0.794
Humorous 0.126 0.092 0.206

Vocabulary Overlap

Number of common words in the row and column divided by the total number of unique words in the row.

   train validation test
train 1.000 0.611 0.593
validation 0.310 1.000 0.500
test 0.362 0.602 1.000

Example

{
   "key":44,
   "title":"Днес изтича срокът за подаване на заявления за разкриване на секции в чужбина за референдума",
   "content":"Днес изтича срокът, в който българите, живеещи в чужбина, могат да подадат заявление за разкриване на изборна секция за предстоящия на 27 януари референдум. Според решение на Централната избирателна комисия (ЦИК) за допитването секции могат да се откриват в посолствата и консулствата на страната. За целта обаче са нужни поне 20 заявления на желаещи.За да бъде разкрита секция, са нужни поне 20 заявления.За гласуване в националния референдум няма да се създават секции в помещенията на българските почетни консулства и в офисите на българските почетни консули. Там няма да се събират и заявления, напомнят от Външно министерство.Заявленията трябва да бъдат попълнени и подписани саморъчно, изпратени по пощата, занесени лично до посолството, съответно до консулството, или да бъдат сканирани и изпратени в електронна форма в един от двата варианта - PDF или TIFF формат. За изпратените по пощата заявления важи дата на пощенското клеймо.Ако има разкрита секция, всеки български гражданин, който на 27 януари 2013 година се намира в чужбина, може да гласува на референдума, като бъде дописан в списъка.В заявлението гласоподавателят посочва: собственото, бащиното и фамилното си име по паспорт, единния си граждански номер, адреса на пребиваване в съответната държава, постоянния си адрес в България и населеното място, в което се намира дипломатическото или консулското представителство, в което желае да гласува. Образецът на заявлението може да бъде изтеглен от сайта на Министерството на външните работи.От Външно министерство съобщиха, че предстои да бъде открито консулство на България във Франкфурт на Майн, Германия. До отварянето на консулството желаещите да гласуват във Франкфурт на Майн могат да подават заявления за гласуване в дипломатическото представителство в Берлин и в консулското представителство в Мюнхен. В заявлението следва да се впише, че заявителят желае да гласува във Франкфурт на Майн.",
   "category":"bulgaria",
   "publishDate":"2013-01-01T10:43:00",
   "source":"Publications-all-2013-01-01-2015-04-01",
   "label":0
}

Citation

[1] Hardalov, Momchil, Ivan Koychev, and Preslav Nakov. 2015. In Search of Credible News. In Proceedings of International Conference on Artificial Intelligence: Methodology, Systems, and Applications, pages 172–180, Varna, Bulgaria.

@InProceedings{10.1007/978-3-319-44748-3_17,
	author="Hardalov, Momchil
	and Koychev, Ivan
	and Nakov, Preslav",
	title="In Search of Credible News",
	booktitle="Artificial Intelligence: Methodology, Systems, and Applications",
	year="2016",
	publisher="Springer International Publishing",
	address="Cham",
	pages="172--180",
	isbn="978-3-319-44748-3"
}

License

Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0). See the LICENSE file.