英文假新聞判斷資料集 / Dataset: USA Fake and Real News

7月 29, 2023 Dataset , English , Fake News , NLP 0 Comments Edit Copy Download

這份資料集改編自Kaggle上CLÉMENT BISAILLON所發佈的真假新聞資料集(Fake and real news dataset)。可作為英文的文本探勘練習使用。

資料來源 / Source

https://www.kaggle.com/datasets/clmentbisaillon/fake-and-real-news-dataset

Ahmed H, Traore I, Saad S. “Detecting opinion spams and fake news using text classification”, Journal of Security and Privacy, Volume 1, Issue 1, Wiley, January/February 2018.

Ahmed H, Traore I, Saad S. (2017) “Detection of Online Fake News Using N-Gram Analysis and Machine Learning Techniques. In: Traore I., Woungang I., Awad A. (eds) Intelligent, Secure, and Dependable Systems in Distributed and Cloud Environments. ISDDC 2017. Lecture Notes in Computer Science, vol 10618. Springer, Cham (pp. 127-138).

資料集下載 / Download

https://docs.google.com/spreadsheets/d/1PdrVkDTCw1bEFPHKy-HiEmhAVQyDnTRDXb2YIOAkgcg/edit?usp=sharing

Google試算表線上檢視
ODS格式下載
OpenDoucment Spreadsheet (.ods) 格式備份：Google Drive, GitHub, One Drive, Mega, Box, MediaFire, pCloud, Degoo, 4shared

簡介 / Description

https://onlinelibrary.wiley.com/doi/full/10.1002/spy2.9?casa_token=PXUQ-6BNZbsAAAAA%3A1S7kj7qnQ_o2SXNW2hKUEyX-3tHRPsu4WW4veYPl4RfViVvROGSI7SeSqOCWrKq2_JxJRH462Hu7MANn#

這份資料集是來自Ahmed、Traore與Saad等人的研究。原始資料集中收錄了新聞的標題、內文、日期等多項資料，本資料集僅取出標題與部分筆數，作為練習之用。你能夠讓機器判斷真假新聞嗎？

案例數 / Instances

訓練集：2000

屬性 / Attributes

本資料集無缺失值。

名稱	*資料類型*	定義	*類別或數值的單位*
news_title	類別型 (字串型)	新聞標題	來自網路新聞的標題，以英文為主。
is_fake	類別型	是否為假新聞	true 是假新聞 false 不是假新聞

目標屬性 / Target class

https://twitter.com/EliotHiggins/status/1637927681734987777?ref_src=twsrc%5Etfw%7Ctwcamp%5Etweetembed%7Ctwterm%5E1637927681734987777%7Ctwgr%5E0c9fc8bae3fa1212d6b285af6e3030cbcb46d0c5%7Ctwcon%5Es1_&ref_url=https%3A%2F%2Fwww.bnext.com.tw%2Farticle%2F74552%2Fmidjourney-v5-trump-ai-deepfake

這張圖片是Eliot Higgins用Midjourney繪製的虛擬照片。當時作者只是為了測試AI繪圖可以做到什麼程度，不過卻被很多人誤以為真。不過我在想這是不是侵害了川普的人格權啊？

我們的目標屬性就是「is_fake」，也就是這是否是假新聞。

文章最後的問題是：如果真的能夠判斷新聞的真假，你覺得可以用來做些什麼呢？

1. 用來做言論審查，打擊詐騙訊息。
2. 用來做警示標語，提醒撰稿記者跟閱讀的讀者，這新聞寫起來可能有問題。
3. 用來瞭解真實新聞的風格，進一步產生更以假亂真的新聞。
4. 其他。

歡迎在下面留言分享喔！

這篇文章介紹了一份資料集，該資料集改編自Kaggle上CLÉMENT BISAILLON所發佈的真假新聞資料集，可用於英文文本探勘練習。資料集中包含了新聞標題與是否為假新聞的屬性。作者提供了資料集的來源、下載連結，並介紹了目標屬性，即判斷新聞真假的標記。此外，作者也引用了一張虛擬照片，闡述了判斷新聞真假的重要性。最後，文章提出了關於利用真假新聞判斷的問題，並列舉了幾個應用可能：言論審查、提醒撰稿記者與讀者、瞭解真實新聞風格以及製造以假亂真的新聞。讀者可以在文章底部留言分享更多意見。

如果真的能夠判斷新聞的真假，可以用來做多方面的應用。首先，可以用來做言論審查，打擊詐騙訊息，幫助維護社會秩序和公平正義。其次，對於新聞撰稿記者和讀者來說，判斷新聞真假也是非常重要的，可以用來提醒他們注意可能存在的問題和風險。此外，透過判斷真實新聞的風格，可以進一步改進新聞的撰寫和報導，提高質量與可信度。然而，也要警惕判斷真假新聞的技術可能被濫用，產生更以假亂真的新聞，對社會造成負面影響。因此，在使用這樣的技術時，需要謹慎處理，確保其用途符合倫理和法律準則。

布丁布丁吃什麼？

英文假新聞判斷資料集 / Dataset: USA Fake and Real News

7月 29, 2023 Dataset , English , Fake News , NLP 0 Comments Edit Copy Download

資料來源 / Source

資料集下載 / Download

簡介 / Description

案例數 / Instances

屬性 / Attributes

目標屬性 / Target class

About Me

布丁布丁吃布丁

Luminous Blessing (Donors)

Podcast

Facebook Fanpage

Random Posts

Guestbook

Comments

Recent Posts

聯絡布丁

Buy Me A Coffee (Donate)

Labels (All Labels)

英文假新聞判斷資料集 / Dataset: USA Fake and Real News 7月 29, 2023 Dataset , English , Fake News , NLP 0 Comments Edit Copy Download

資料來源 / Source

資料集下載 / Download

簡介 / Description

案例數 / Instances

屬性 / Attributes

目標屬性 / Target class

Related Posts

About Me

布丁布丁吃布丁

Luminous Blessing (Donors)

Podcast

Facebook Fanpage

Random Posts

Guestbook

Comments

Recent Posts

英文假新聞判斷資料集 / Dataset: USA Fake and Real News

7月 29, 2023 Dataset , English , Fake News , NLP 0 Comments Edit Copy Download