中文小說讀者評論資料集 / Dataset: Chinese Net Novel Rating
這份資料集改編自Kaggle上Leo Zhou所發佈的中文網路小說評分資料集。可作為文本探勘練習使用。
資料來源 / Source
https://www.kaggle.com/datasets/leonerd/chinesenetnovelrating
資料集下載 / Download
原始資料集非常龐大,足足有133.08MB之多。為了方便教學使用,我只從原始資料集裡取了其中的2118筆資料,將評論內容轉換成正體中文後,重新組成訓練集和未知資料兩份試算表。這兩份試算表又分成了原始文本以及斷詞後的文本。
訓練集 / Train set
檔案名稱「comments-train-raw - 2020 - blog.ods」是未斷詞的原始資料。
- Google試算表線上檢視
- ODS格式下載
- OpenDoucment Spreadsheet (.ods) 格式備份:Google Drive、GitHub、One Drive、Mega、Box、MediaFire、pCloud、Degoo、4shared
檔案名稱「comments-train-seg - 2020 -blog.ods」是已經經過斷詞處理資料。斷詞處理後,停用詞會被移除,詞彙與詞彙之間會有空格。可以直接以英文的文本探勘演算法來分析。
https://docs.google.com/spreadsheets/d/1wUbHABJ4l4e-uKZjg7JnLAZ_7RFb1HCLBdvRaioxN1I/edit?usp=sharing
- Google試算表線上檢視
- ODS格式下載
- OpenDoucment Spreadsheet (.ods) 格式備份:Google Drive、GitHub、One Drive、Mega、Box、MediaFire、pCloud、Degoo、4shared
精簡版訓練集 / Small train set
這份精簡版訓練集只保留評價類型的「negative」(負面評價)跟「positive」(正面評價),以降低整體資料量的大小,讓文本探勘教課過程可以更順利一點。
- Google試算表線上檢視
- ODS格式下載
- OpenDoucment Spreadsheet (.ods) 格式備份:Google Drive、GitHub、One Drive、Mega、Box、MediaFire、pCloud、Degoo、4shared
未知資料 / Unknown
檔案名稱「comments-unknown-raw - 2020 - blog.ods」是未斷詞的未知資料。前三筆資料提供答案,但其他筆資料維持「?」,請使用機器學習所建立的模型來預測。
- Google試算表線上檢視
- ODS格式下載
- OpenDoucment Spreadsheet (.ods) 格式備份:Google Drive、GitHub、One Drive、Mega、Box、MediaFire、pCloud、Degoo、4shared
檔案名稱「comments-unknown-seg - 2020 - blog.ods」是斷詞後的未知資料。斷詞的方法採用了跟訓練集斷詞版本一樣的處理方式。可以直接以英文的文本探勘演算法來分析。
- Google試算表線上檢視
- ODS格式下載
- OpenDoucment Spreadsheet (.ods) 格式備份:Google Drive、GitHub、One Drive、Mega、Box、MediaFire、pCloud、Degoo、4shared
簡介 / Description
這份資料集是來自中國某個網路小說中的讀者評論。讀者會給小說0到5顆星的評價,並留下評論意見。本資料集依據星級數量來區分讀者評論意見的類型,0至1顆星為負面評價 negative、2至3顆星為中性評價 neutral、4至5顆星為正面評價 positive。
為了篩選出有意義的評價,本資料集僅挑選獲得8位以上讀者認同的讀者評論,並從中為三種評價類型各挑選700筆,組成此資料集。你能夠讓機器瞭解讀者的意見是正面、負面、還是中立嗎?
案例數 / Instances
- 訓練集:2100
- 精簡版訓練集:1400
- 未知資料:18 (含3筆已知資料)
屬性 / Attributes
本資料集沒有缺失值。
名稱 | 資料類型 | 定義 | 類別或數值的單位 |
comment | 類別型 (字串型) |
讀者評論 | 讀者對小說的評論,以正體中文為主 |
rate_class | 類別型 | 評價類型 | negative 負面評價 neutral 中性評價 positive 正面評價 |
目標屬性 / Target Class
「rate_class」,也就是評價的類型。
文章最後要來問的是:你認為評論所使用的字句跟評價類型有所關聯嗎?
- 1. 有關聯。都講了些嚴厲的批評了,評價當然很差吧。
- 2. 不一定。有些人就是刀子嘴、豆腐心,愛之深、責之切啊。
歡迎在下面留言喔!