:::

英文假新聞判斷資料集 / Dataset: USA Fake and Real News

7月 29, 2023 , , , 0 Comments Edit Copy Download

2023-0722-105617.png

這份資料集改編自Kaggle上CLÉMENT BISAILLON所發佈的真假新聞資料集(Fake and real news dataset)。可作為英文的文本探勘練習使用。


資料來源 / Source

https://www.kaggle.com/datasets/clmentbisaillon/fake-and-real-news-dataset

https://www.kaggle.com/datasets/clmentbisaillon/fake-and-real-news-dataset 

Ahmed H, Traore I, Saad S. “Detecting opinion spams and fake news using text classification”, Journal of Security and Privacy, Volume 1, Issue 1, Wiley, January/February 2018.
Ahmed H, Traore I, Saad S. (2017) “Detection of Online Fake News Using N-Gram Analysis and Machine Learning Techniques. In: Traore I., Woungang I., Awad A. (eds) Intelligent, Secure, and Dependable Systems in Distributed and Cloud Environments. ISDDC 2017. Lecture Notes in Computer Science, vol 10618. Springer, Cham (pp. 127-138).

資料集下載 / Download

https://docs.google.com/spreadsheets/d/1PdrVkDTCw1bEFPHKy-HiEmhAVQyDnTRDXb2YIOAkgcg/edit?usp=sharing

https://docs.google.com/spreadsheets/d/1PdrVkDTCw1bEFPHKy-HiEmhAVQyDnTRDXb2YIOAkgcg/edit?usp=sharing

簡介 / Description

2023-0722-103809.png

https://onlinelibrary.wiley.com/doi/full/10.1002/spy2.9?casa_token=PXUQ-6BNZbsAAAAA%3A1S7kj7qnQ_o2SXNW2hKUEyX-3tHRPsu4WW4veYPl4RfViVvROGSI7SeSqOCWrKq2_JxJRH462Hu7MANn# 

這份資料集是來自Ahmed、Traore與Saad等人的研究。原始資料集中收錄了新聞的標題、內文、日期等多項資料,本資料集僅取出標題與部分筆數,作為練習之用。你能夠讓機器判斷真假新聞嗎?

案例數 / Instances

訓練集:2000

屬性 / Attributes

本資料集無缺失值。

名稱 資料類型 定義 類別或數值的單位
news_title 類別型
(字串型)
新聞標題 來自網路新聞的標題,以英文為主。
is_fake 類別型 是否為假新聞 true 是假新聞
false 不是假新聞

目標屬性 / Target class

2023-0722-102628.png

https://twitter.com/EliotHiggins/status/1637927681734987777?ref_src=twsrc%5Etfw%7Ctwcamp%5Etweetembed%7Ctwterm%5E1637927681734987777%7Ctwgr%5E0c9fc8bae3fa1212d6b285af6e3030cbcb46d0c5%7Ctwcon%5Es1_&ref_url=https%3A%2F%2Fwww.bnext.com.tw%2Farticle%2F74552%2Fmidjourney-v5-trump-ai-deepfake

這張圖片是Eliot Higgins用Midjourney繪製的虛擬照片。當時作者只是為了測試AI繪圖可以做到什麼程度,不過卻被很多人誤以為真。不過我在想這是不是侵害了川普的人格權啊?

我們的目標屬性就是「is_fake」,也就是這是否是假新聞。


文章最後的問題是:如果真的能夠判斷新聞的真假,你覺得可以用來做些什麼呢?

  • 1. 用來做言論審查,打擊詐騙訊息。
  • 2. 用來做警示標語,提醒撰稿記者跟閱讀的讀者,這新聞寫起來可能有問題。
  • 3. 用來瞭解真實新聞的風格,進一步產生更以假亂真的新聞。
  • 4. 其他。

歡迎在下面留言分享喔!