中文小說讀者評論資料集 / Dataset: Chinese Net Novel Rating

7月 23, 2023 Dataset , Novel Rating , Text Mining 0 Comments Edit Copy Download

這份資料集改編自Kaggle上Leo Zhou 所發佈的中文網路小說評分資料集。可作為文本探勘練習使用。

資料來源 / Source

https://www.kaggle.com/datasets/leonerd/chinesenetnovelrating

資料集下載 / Download

原始資料集非常龐大，足足有133.08MB之多。為了方便教學使用，我只從原始資料集裡取了其中的2118筆資料，將評論內容轉換成正體中文後，重新組成訓練集和未知資料兩份試算表。這兩份試算表又分成了原始文本以及斷詞後的文本。

訓練集 / Train set

檔案名稱「comments-train-raw - 2020 - blog.ods」是未斷詞的原始資料。

Google試算表線上檢視
ODS格式下載
OpenDoucment Spreadsheet (.ods) 格式備份：Google Drive、GitHub、One Drive、Mega、Box、MediaFire、pCloud、Degoo、4shared

檔案名稱「comments-train-seg - 2020 -blog.ods」是已經經過斷詞處理資料。斷詞處理後，停用詞會被移除，詞彙與詞彙之間會有空格。可以直接以英文的文本探勘演算法來分析。

https://docs.google.com/spreadsheets/d/1wUbHABJ4l4e-uKZjg7JnLAZ_7RFb1HCLBdvRaioxN1I/edit?usp=sharing

Google試算表線上檢視
ODS格式下載
OpenDoucment Spreadsheet (.ods) 格式備份：Google Drive、GitHub、One Drive、Mega、Box、MediaFire、pCloud、Degoo、4shared

精簡版訓練集 / Small train set

這份精簡版訓練集只保留評價類型的「negative」(負面評價)跟「positive」(正面評價)，以降低整體資料量的大小，讓文本探勘教課過程可以更順利一點。

Google試算表線上檢視
ODS格式下載
OpenDoucment Spreadsheet (.ods) 格式備份：Google Drive、GitHub、One Drive、Mega、Box、MediaFire、pCloud、Degoo、4shared

未知資料 / Unknown

檔案名稱「comments-unknown-raw - 2020 - blog.ods」是未斷詞的未知資料。前三筆資料提供答案，但其他筆資料維持「?」，請使用機器學習所建立的模型來預測。

Google試算表線上檢視
ODS格式下載
OpenDoucment Spreadsheet (.ods) 格式備份：Google Drive、GitHub、One Drive、Mega、Box、MediaFire、pCloud、Degoo、4shared

檔案名稱「comments-unknown-seg - 2020 - blog.ods」是斷詞後的未知資料。斷詞的方法採用了跟訓練集斷詞版本一樣的處理方式。可以直接以英文的文本探勘演算法來分析。

Google試算表線上檢視
ODS格式下載
OpenDoucment Spreadsheet (.ods) 格式備份：Google Drive、GitHub、One Drive、Mega、Box、MediaFire、pCloud、Degoo、4shared

簡介 / Description

這份資料集是來自中國某個網路小說中的讀者評論。讀者會給小說0到5顆星的評價，並留下評論意見。本資料集依據星級數量來區分讀者評論意見的類型，0至1顆星為負面評價 negative、2至3顆星為中性評價 neutral、4至5顆星為正面評價 positive。

為了篩選出有意義的評價，本資料集僅挑選獲得8位以上讀者認同的讀者評論，並從中為三種評價類型各挑選700筆，組成此資料集。你能夠讓機器瞭解讀者的意見是正面、負面、還是中立嗎？

案例數 / Instances

訓練集：2100
精簡版訓練集：1400
未知資料：18 (含3筆已知資料)

屬性 / Attributes

本資料集沒有缺失值。

名稱	*資料類型*	定義	*類別或數值的單位*
comment	類別型 (字串型)	讀者評論	讀者對小說的評論，以正體中文為主
rate_class	類別型	評價類型	negative 負面評價 neutral 中性評價 positive 正面評價

目標屬性 / Target Class

「rate_class」，也就是評價的類型。

文章最後要來問的是：你認為評論所使用的字句跟評價類型有所關聯嗎？

1. 有關聯。都講了些嚴厲的批評了，評價當然很差吧。
2. 不一定。有些人就是刀子嘴、豆腐心，愛之深、責之切啊。

歡迎在下面留言喔！

這篇文章介紹了一個中文網路小說評分資料集，該資料集是由Kaggle上的Leo Zhou所提供。資料集中包含了讀者對小說的評論和評分，評分分為0至5顆星，並根據星級數量將評論分為負面、中性和正面三類。該資料集共包含2100筆訓練資料和18筆未知資料。另外也提供了精簡版的訓練集資料。資料集中的屬性包括評論和評價類型，而目標屬性為評價類型。文章最後提出了一個問題，即評論所使用的字句是否與評價類型有關聯，並邀請讀者留言回答。

此資料集提供了一個有趣的研究主題，即評論與評價類型之間的關聯性。通過分析這些評論的內容，我們或許可以了解讀者的意見和情感反應，並進一步探討評價對於小說的影響。評論的字句可能揭示了讀者對於故事情節、角色塑造、寫作風格等方面的喜好或不滿。這對於作家、編輯和讀者群體來說都具有價值，可以幫助他們更好地了解和回應讀者的期望和意見。

然而，是否評論的字句與評價類型有關聯並不是一個絕對的規律。有些人可能會在批評中表達出對作品的負面評價，而有些人則可能以刻薄的言辭表達出內心的喜愛。因此，這個問題並沒有一個確定的答案，而是需要進一步的研究和分析。

這個資料集提供了一個寶貴的資源，可供文本探勘和情感分析等研究領域使用。通過分析這些評論，我們可以更深入地瞭解讀者對於網路小說的評價和意見，從而改進作品和提供更好的閱讀體驗。

布丁布丁吃什麼？

中文小說讀者評論資料集 / Dataset: Chinese Net Novel Rating

7月 23, 2023 Dataset , Novel Rating , Text Mining 0 Comments Edit Copy Download

資料來源 / Source

資料集下載 / Download

訓練集 / Train set

精簡版訓練集 / Small train set

未知資料 / Unknown

簡介 / Description

案例數 / Instances

屬性 / Attributes

目標屬性 / Target Class

About Me

布丁布丁吃布丁

Luminous Blessing (Donors)

Podcast

Facebook Fanpage

Random Posts

Guestbook

Comments

Recent Posts

聯絡布丁

Buy Me A Coffee (Donate)

Labels (All Labels)

中文小說讀者評論資料集 / Dataset: Chinese Net Novel Rating 7月 23, 2023 Dataset , Novel Rating , Text Mining 0 Comments Edit Copy Download

資料來源 / Source

資料集下載 / Download

訓練集 / Train set

精簡版訓練集 / Small train set

未知資料 / Unknown

簡介 / Description

案例數 / Instances

屬性 / Attributes

目標屬性 / Target Class

Related Posts

About Me

布丁布丁吃布丁

Luminous Blessing (Donors)

Podcast

Facebook Fanpage

Random Posts

Guestbook

Comments

Recent Posts

中文小說讀者評論資料集 / Dataset: Chinese Net Novel Rating

7月 23, 2023 Dataset , Novel Rating , Text Mining 0 Comments Edit Copy Download