The corpus contains Bulgarian news over a fixed period of time, whose factuality had been questioned. The news come from 377 different sources from various domains, including politics, interesting facts and tips&tricks. The dataset was prepared for the Hack the Fake News hackathon.
Identifier | Task Type | Metric | License | Website | Code | Download |
---|---|---|---|---|---|---|
Fake-N | Fake News Detection | F1 (binary) | MIT |
The corpus was automatically collected from the Bulgarian Association of PR Agencies, and then annotated by students of journalism.
# | Train | Dev | Test |
---|---|---|---|
Bulgarian | 1,990 | 221 | 701 |
train | validation | test | |
---|---|---|---|
Credible | 0.668 | 0.652 | 0.709 |
Fake | 0.332 | 0.348 | 0.291 |
Number of common words in the row and column divided by the total number of unique words in the row.
  | train | validation | test |
---|---|---|---|
train | 1.000 | 0.799 | 0.756 |
validation | 0.265 | 1.000 | 0.381 |
test | 0.431 | 0.655 | 1.000 |
{
"fake_news":0,
"title":"Petel.bg - новини - \"България днес\": Изкопаха изгубеното пророчество на Слава Севрюкова за България! То се сбъдва пред очите ни",
"url":"http:\/\/petel.bg\/Balgariya-dnes--Izkopaha-izgubenoto-prorochestvo-na-Slava-Sevryukova-za-Balgariya--To-se-sbadva-pred-ochite-ni__192124",
"date_published":"2017-02-01 16:12:00",
"content":"Изследователят на българските пророци Христо Радев разкрива предсказания на феномена Слава Севрюкова в интервю за „България днес“ „В края на 80-те години Слава Севрюкова казва, че в България изневиделица ще се появи човек, в който е прероден духът на ярък библейски герой. Има предвид Давид. Според ясновидката този българин ще изпълни много важна роля в бъдещето на страната. Дано този президент да е въпросният човек! Румен Радев изскочи от нищото, също като библейския Давид… Но всеки се разкрива чрез делата си. Предстои да видим дали той е човекът от предсказанието“ – твърди Христо Нанев. На въпрос дали съвпадат предсказанията на Ванга и Слава Севрюкова, Христо Нанев отговаря: „Съвпадат в голяма степен. Правил съм изследвания и сравнения в тази посока. За изселническите вълни от мюсюлмани например Ванга има повече предсказания. Тя казва, че поклонници на исляма ще превземат Германия и Франция. Преди години предполагах, че става дума за война. Но очевидно се има предвид реката от бежанци, която залива Западна Европа. Слава Севрюкова казва, че третата световна война ще бъде между християни и мюсюлмани. И че няма да се знае какъв ще бъде фронтът. Ето днес сме свидетели как вълните от тероризъм превземат нови и нови територии“ – твърди Нанев. Писателят твърди, че предсказанията на българските пророци за страната ни не са толкова фатални. „България ще оцелее въпреки всичко. „И тези, които живеят в нея, ще се зоват българи“ – твърди Слава Севрюкова, цитирана от Христо Нанев. Следете PETEL.BG всяка минута 24 часа в денонощието последните новини - такива, каквито са, от Света, България и Варна! Изпращайте вашите снимки на info@petel.bg по всяко време на дежурния редактор! За реклама http:\/\/petel.bg\/advertising-rates.html Бъдете с нас навсякъде и през вашия мобилен телефон!"
}
[1] Hack the News Datathon Case – Propaganda Detection https://www.datasciencesociety.net/hack-news-datathon-case-propaganda-detection/.
[2] Georgi Karadzhov, Pepa Gencheva, Preslav Nakov, and Ivan Koychev. 2017. We Built a Fake News / Click Bait Filter: What Happened Next Will Blow Your Mind!. In Proceedings of the International Conference Recent Advances in Natural Language Processing, RANLP 2017, pages 334–343, Varna, Bulgaria. INCOMA Ltd..
@inproceedings{karadzhov-etal-2017-built,
title = "We Built a Fake News / Click Bait Filter: What Happened Next Will Blow Your Mind!",
author = "Karadzhov, Georgi and
Gencheva, Pepa and
Nakov, Preslav and
Koychev, Ivan",
booktitle = "Proceedings of the International Conference Recent Advances in Natural Language Processing, {RANLP} 2017",
month = sep,
year = "2017",
address = "Varna, Bulgaria",
publisher = "INCOMA Ltd.",
url = "https://doi.org/10.26615/978-954-452-049-6_045",
doi = "10.26615/978-954-452-049-6_045",
pages = "334--343",
series = "RANLP~'17"
}
MIT License. See the LICENSE file.