英文假新聞判斷資料集 / Dataset: USA Fake and Real News
這份資料集改編自Kaggle上CLÉMENT BISAILLON所發佈的真假新聞資料集(Fake and real news dataset)。可作為英文的文本探勘練習使用。
資料來源 / Source
https://www.kaggle.com/datasets/clmentbisaillon/fake-and-real-news-dataset
Ahmed H, Traore I, Saad S. “Detecting opinion spams and fake news using text classification”, Journal of Security and Privacy, Volume 1, Issue 1, Wiley, January/February 2018.
Ahmed H, Traore I, Saad S. (2017) “Detection of Online Fake News Using N-Gram Analysis and Machine Learning Techniques. In: Traore I., Woungang I., Awad A. (eds) Intelligent, Secure, and Dependable Systems in Distributed and Cloud Environments. ISDDC 2017. Lecture Notes in Computer Science, vol 10618. Springer, Cham (pp. 127-138).
資料集下載 / Download
https://docs.google.com/spreadsheets/d/1PdrVkDTCw1bEFPHKy-HiEmhAVQyDnTRDXb2YIOAkgcg/edit?usp=sharing
- Google試算表線上檢視
- ODS格式下載
- OpenDoucment Spreadsheet (.ods) 格式備份:Google Drive, GitHub, One Drive, Mega, Box, MediaFire, pCloud, Degoo, 4shared
簡介 / Description
這份資料集是來自Ahmed、Traore與Saad等人的研究。原始資料集中收錄了新聞的標題、內文、日期等多項資料,本資料集僅取出標題與部分筆數,作為練習之用。你能夠讓機器判斷真假新聞嗎?
案例數 / Instances
訓練集:2000
屬性 / Attributes
本資料集無缺失值。
名稱 | 資料類型 | 定義 | 類別或數值的單位 |
news_title | 類別型 (字串型) |
新聞標題 | 來自網路新聞的標題,以英文為主。 |
is_fake | 類別型 | 是否為假新聞 | true 是假新聞 false 不是假新聞 |
目標屬性 / Target class
這張圖片是Eliot Higgins用Midjourney繪製的虛擬照片。當時作者只是為了測試AI繪圖可以做到什麼程度,不過卻被很多人誤以為真。不過我在想這是不是侵害了川普的人格權啊?
我們的目標屬性就是「is_fake」,也就是這是否是假新聞。
文章最後的問題是:如果真的能夠判斷新聞的真假,你覺得可以用來做些什麼呢?
- 1. 用來做言論審查,打擊詐騙訊息。
- 2. 用來做警示標語,提醒撰稿記者跟閱讀的讀者,這新聞寫起來可能有問題。
- 3. 用來瞭解真實新聞的風格,進一步產生更以假亂真的新聞。
- 4. 其他。
歡迎在下面留言分享喔!