:::

中文小說讀者評論資料集 / Dataset: Chinese Net Novel Rating

2023-0714-150947.png

這份資料集改編自Kaggle上Leo Zhou所發佈的中文網路小說評分資料集。可作為文本探勘練習使用。


資料來源 / Source

https://www.kaggle.com/datasets/leonerd/chinesenetnovelrating

https://www.kaggle.com/datasets/leonerd/chinesenetnovelrating 

資料集下載 / Download

https://docs.google.com/spreadsheets/d/1Us6ReVE6CuEanx_nzAkrfBjUTxHXe-JChstmdWSGKhU/edit?usp=sharing

原始資料集非常龐大,足足有133.08MB之多。為了方便教學使用,我只從原始資料集裡取了其中的2118筆資料,將評論內容轉換成正體中文後,重新組成訓練集和未知資料兩份試算表。這兩份試算表又分成了原始文本以及斷詞後的文本。

訓練集 / Train set

2023-0714-113931.png

檔案名稱「comments-train-raw - 2020 - blog.ods」是未斷詞的原始資料。

2023-0714-113941.png

檔案名稱「comments-train-seg - 2020 -blog.ods」是已經經過斷詞處理資料。斷詞處理後,停用詞會被移除,詞彙與詞彙之間會有空格。可以直接以英文的文本探勘演算法來分析。

https://docs.google.com/spreadsheets/d/1wUbHABJ4l4e-uKZjg7JnLAZ_7RFb1HCLBdvRaioxN1I/edit?usp=sharing

精簡版訓練集 / Small train set 

這份精簡版訓練集只保留評價類型的「negative」(負面評價)跟「positive」(正面評價),以降低整體資料量的大小,讓文本探勘教課過程可以更順利一點。

未知資料 / Unknown

2023-0714-145105.png

檔案名稱「comments-unknown-raw - 2020 - blog.ods」是未斷詞的未知資料。前三筆資料提供答案,但其他筆資料維持「?」,請使用機器學習所建立的模型來預測。

2023-0714-145434.png

檔案名稱「comments-unknown-seg - 2020 - blog.ods」是斷詞後的未知資料。斷詞的方法採用了跟訓練集斷詞版本一樣的處理方式。可以直接以英文的文本探勘演算法來分析。

簡介 / Description

這份資料集是來自中國某個網路小說中的讀者評論。讀者會給小說0到5顆星的評價,並留下評論意見。本資料集依據星級數量來區分讀者評論意見的類型,0至1顆星為負面評價 negative、2至3顆星為中性評價 neutral、4至5顆星為正面評價 positive。

為了篩選出有意義的評價,本資料集僅挑選獲得8位以上讀者認同的讀者評論,並從中為三種評價類型各挑選700筆,組成此資料集。你能夠讓機器瞭解讀者的意見是正面、負面、還是中立嗎?

案例數 / Instances

  • 訓練集:2100
  • 精簡版訓練集:1400
  • 未知資料:18 (含3筆已知資料)

屬性 / Attributes

本資料集沒有缺失值。

名稱 資料類型 定義 類別或數值的單位
comment 類別型
(字串型)
讀者評論 讀者對小說的評論,以正體中文為主
rate_class 類別型 評價類型 negative 負面評價
neutral 中性評價
positive 正面評價

目標屬性 / Target Class

17._WordClouds_-_111-2_.png

「rate_class」,也就是評價的類型。


文章最後要來問的是:你認為評論所使用的字句跟評價類型有所關聯嗎?

  • 1. 有關聯。都講了些嚴厲的批評了,評價當然很差吧。
  • 2. 不一定。有些人就是刀子嘴、豆腐心,愛之深、責之切啊。

歡迎在下面留言喔!