Hack the News Datathon (2019)

The corpus contains Bulgarian news over a fixed period of time, whose factuality had been questioned. The news come from 377 different sources from various domains, including politics, interesting facts and tips&tricks. The dataset was prepared for the Hack the Fake News hackathon.

Identifier Task Type Metric License Website Code Download
Fake-N Fake News Detection F1 (binary) MIT

Data Source

The corpus was automatically collected from the Bulgarian Association of PR Agencies, and then annotated by students of journalism.

Data Description

# Train Dev Test
Bulgarian 1,990 221 701

Label Distribution

train validation test
Credible 0.668 0.652 0.709
Fake 0.332 0.348 0.291

Vocabulary Overlap

Number of common words in the row and column divided by the total number of unique words in the row.

   train validation test
train 1.000 0.799 0.756
validation 0.265 1.000 0.381
test 0.431 0.655 1.000

Domain Analysis

  • Train vs Validation
    • #Common Domains: 106
    • Only in train: 239
    • Only in val: 13
  • Train vs Test
    • #Common domains: 162
    • Only in train: 183
    • Only in test: 46
  • Validation vs Test
    • #Common domains: 90
    • Only in val: 29
    • Only in test: 118

Examples

{
   "fake_news":0,
   "title":"Petel.bg - новини - \"България днес\": Изкопаха изгубеното пророчество на Слава Севрюкова за България! То се сбъдва пред очите ни",
   "url":"http:\/\/petel.bg\/Balgariya-dnes--Izkopaha-izgubenoto-prorochestvo-na-Slava-Sevryukova-za-Balgariya--To-se-sbadva-pred-ochite-ni__192124",
   "date_published":"2017-02-01 16:12:00",
   "content":"Изследователят на българските пророци Христо Радев разкрива предсказания на феномена Слава Севрюкова в интервю за „България днес“ „В края на 80-те години Слава Севрюкова казва, че в България изневиделица ще се появи човек, в който е прероден духът на ярък библейски герой. Има предвид Давид. Според ясновидката този българин ще изпълни много важна роля в бъдещето на страната. Дано този президент да е въпросният човек! Румен Радев изскочи от нищото, също като библейския Давид… Но всеки се разкрива чрез делата си. Предстои да видим дали той е човекът от предсказанието“ – твърди Христо Нанев. На въпрос дали съвпадат предсказанията на Ванга и Слава Севрюкова, Христо Нанев отговаря: „Съвпадат в голяма степен. Правил съм изследвания и сравнения в тази посока. За изселническите вълни от мюсюлмани например Ванга има повече предсказания. Тя казва, че поклонници на исляма ще превземат Германия и Франция. Преди години предполагах, че става дума за война. Но очевидно се има предвид реката от бежанци, която залива Западна Европа. Слава Севрюкова казва, че третата световна война ще бъде между християни и мюсюлмани. И че няма да се знае какъв ще бъде фронтът. Ето днес сме свидетели как вълните от тероризъм превземат нови и нови територии“ – твърди Нанев. Писателят твърди, че предсказанията на българските пророци за страната ни не са толкова фатални. „България ще оцелее въпреки всичко. „И тези, които живеят в нея, ще се зоват българи“ – твърди Слава Севрюкова, цитирана от Христо Нанев. Следете PETEL.BG всяка минута 24 часа в денонощието последните новини - такива, каквито са, от Света, България и Варна! Изпращайте вашите снимки на info@petel.bg по всяко време на дежурния редактор! За реклама  http:\/\/petel.bg\/advertising-rates.html Бъдете с нас навсякъде и през вашия мобилен телефон!"
}

Citation

[1] Hack the News Datathon Case – Propaganda Detection https://www.datasciencesociety.net/hack-news-datathon-case-propaganda-detection/.

[2] Georgi Karadzhov, Pepa Gencheva, Preslav Nakov, and Ivan Koychev. 2017. We Built a Fake News / Click Bait Filter: What Happened Next Will Blow Your Mind!. In Proceedings of the International Conference Recent Advances in Natural Language Processing, RANLP 2017, pages 334–343, Varna, Bulgaria. INCOMA Ltd..

@inproceedings{karadzhov-etal-2017-built,
    title = "We Built a Fake News / Click Bait Filter: What Happened Next Will Blow Your Mind!",
    author = "Karadzhov, Georgi  and
      Gencheva, Pepa  and
      Nakov, Preslav  and
      Koychev, Ivan",
    booktitle = "Proceedings of the International Conference Recent Advances in Natural Language Processing, {RANLP} 2017",
    month = sep,
    year = "2017",
    address = "Varna, Bulgaria",
    publisher = "INCOMA Ltd.",
    url = "https://doi.org/10.26615/978-954-452-049-6_045",
    doi = "10.26615/978-954-452-049-6_045",
    pages = "334--343",
    series = "RANLP~'17"
}

License

MIT License. See the LICENSE file.