中文假新聞判斷資料集 / Dataset: Chinese Fake News
這份資料集改編自Kaggle上TEDANCE WSDM所發佈的假新聞分類資料集(WSDM - Fake News Classification)。可作為文本探勘練習使用。
資料來源 / Source
https://www.kaggle.com/datasets/wsdmcup/wsdm-fake-news-classification?select=test.csv
資料集下載 / Download
https://docs.google.com/spreadsheets/d/1FZak61ZcNmQRC4s4RixLT2-tgnSjmD4MwyxGF2xxiuA/edit?usp=sharing
這份資料集僅有建立模型用的訓練集。如果你要驗證自己建立的模型是否有效,請使用交互驗證(cross-validation)分割資料。
- Google試算表線上檢視
- ODS格式下載
- OpenDoucment Spreadsheet (.ods) 格式備份:Google Drive、GitHub、One Drive、Mega、Box、MediaFire、pCloud、Degoo、4shared
簡介 / Description
https://www.wsdm-conference.org/2019/
這份資料集是2019年WSDM研討會,是由中國的ByteDance機構所蒐集的資料。為了識別真假新聞,原始資料集將真新聞與假新聞相互比對。本資料集取出假新聞和真新聞各自的標題,挑選2000份資料,作為真假新聞判斷的練習。你能夠讓機器判斷真假新聞嗎?
案例數 / Instances
訓練集:2000
屬性 / Attributes
本資料集無缺失值。
名稱 | 資料類型 | 定義 | 類別或數值的單位 |
news_title | 類別型 (字串型) |
新聞標題 | 來自網路新聞的標題,以正體中文為主。 |
is_fake | 類別型 | 是否為假新聞 | true 是假新聞 false 不是假新聞 |
目標屬性 / Target class
「is_fake」,是否為假新聞。
最後要來問的是:你覺得可以用標題來判斷是不是假新聞嗎?
- 1. 可以。經過查證之後,就可以發現很多標題講的不是真實的事情。
- 2. 可以。假新聞在寫作風格上會有明顯的特徵。
- 3. 不行。標題提供的資訊太少了,不能單靠標題來確定。
- 4. 不行。根本沒有假新聞,或著人人都是假新聞。
- 5. 其他。
歡迎在下面留言分享你的看法喔!