:::

中文假新聞判斷資料集 / Dataset: Chinese Fake News

7月 27, 2023 , , , 0 Comments Edit Copy Download

2023-0721-201108.png

這份資料集改編自Kaggle上TEDANCE WSDM所發佈的假新聞分類資料集(WSDM - Fake News Classification)。可作為文本探勘練習使用。


資料來源 / Source

https://www.kaggle.com/datasets/wsdmcup/wsdm-fake-news-classification?select=test.csv

https://www.kaggle.com/datasets/wsdmcup/wsdm-fake-news-classification?select=test.csv

資料集下載 / Download

https://docs.google.com/spreadsheets/d/1FZak61ZcNmQRC4s4RixLT2-tgnSjmD4MwyxGF2xxiuA/edit?usp=sharing

https://docs.google.com/spreadsheets/d/1FZak61ZcNmQRC4s4RixLT2-tgnSjmD4MwyxGF2xxiuA/edit?usp=sharing

這份資料集僅有建立模型用的訓練集。如果你要驗證自己建立的模型是否有效,請使用交互驗證(cross-validation)分割資料。

簡介 / Description

https://www.wsdm-conference.org/2019/

https://www.wsdm-conference.org/2019/ 

這份資料集是2019年WSDM研討會,是由中國的ByteDance機構所蒐集的資料。為了識別真假新聞,原始資料集將真新聞與假新聞相互比對。本資料集取出假新聞和真新聞各自的標題,挑選2000份資料,作為真假新聞判斷的練習。你能夠讓機器判斷真假新聞嗎?

案例數 / Instances

訓練集:2000

屬性 / Attributes

本資料集無缺失值。

名稱 資料類型 定義 類別或數值的單位
news_title 類別型
(字串型)
新聞標題 來自網路新聞的標題,以正體中文為主。
is_fake 類別型 是否為假新聞 true 是假新聞
false 不是假新聞

目標屬性 / Target class

2023-0721-200940.png

「is_fake」,是否為假新聞。


最後要來問的是:你覺得可以用標題來判斷是不是假新聞嗎?

  • 1. 可以。經過查證之後,就可以發現很多標題講的不是真實的事情。
  • 2. 可以。假新聞在寫作風格上會有明顯的特徵。
  • 3. 不行。標題提供的資訊太少了,不能單靠標題來確定。
  • 4. 不行。根本沒有假新聞,或著人人都是假新聞。
  • 5. 其他。

歡迎在下面留言分享你的看法喔!