如何分析偏好排序問卷？ / How to Analyze Ranking Scale Results?

布丁布丁吃布丁

10月 23, 2017 2 Comments Research Software/SPSS Statistics

如何分析偏好排序問卷？ / How to Analyze Ranking Scale Results?

(圖片來源：ROPER)

對圖書館、系統開發與任何提供服務的相關研究來說，研究者會很想知道使用者到底注重或期待的是什麼功能。舉例來說，系統預計開發的六個功能中，請使用者由最期待到最不期待的順序依序排序；圖書館提供的七項服務中，請讀者由最重要到最不重要的順序依序排序。蒐集完這個資料之後，接下來要怎麼分析好呢？大部分的工具僅止於敘述統計，例如平均數計算或次數分配表。但其實應該進一步使用Friedman檢定與事後多重比較Bonferroni校正，或是列聯表分析，它們都能在排除隨機性之後找出更令人信服的結果順序。這篇以冰淇淋口味偏好兩種不同調查結果為例，說明排序問卷在SPSS中的分析方法。

(more...)

多組資料的平均數是否有差異？SPSS的單因子變異數分析 / One-way ANOVA in SPSS

布丁布丁吃布丁

10月 21, 2017 2 Comments Software/SPSS Statistics

多組資料的平均數是否有差異？SPSS的單因子變異數分析 / One-way ANOVA in SPSS

如果要比較兩組資料的平均數有沒有差異，可以使用獨立樣本t檢定。但如果是三組以上的資料，那就得要用單因子變異數分析(one-way ANOVA)。雖然該方法名稱中為「變異數」，但實質上比較的卻是平均數，這點很容易讓人混淆。網路上有許多SPSS單因子變異數的教學，但是卻很少搭配事後多重比較一起操作的例子。所以我參考邱皓政老師的「統計原理與分析技術：SPSS中文視窗版操作實務詳析」，在這裡將變異數分析的操作方法整理一下，也連帶介紹如何在SPSS中匯入CSV格式的資料，供大家參考。

(more...)

自動決定最佳化分群數量：X-means / Determin the Optimal Number of Clusters: X-means

布丁布丁吃布丁

10月 21, 2017 15 Comments Data Mining Presentation Software/Weka

自動決定最佳化分群數量：X-means / Determin the Optimal Number of Clusters: X-means

能夠自動決定分群數量的演算法，除了層疊K平均分群法之外，Weka裡面還有另一個分群法也能做到類似的目的，那就是X-means。X-means為每個分群結果計算貝氏資訊準則BIC Score，以此決定是否要將資料分成更多群。跟層疊K平均分群法一樣，它可以讓使用者選定分群數量的可能範圍。然而實際使用幾次後，我發現X-means的分群數量偏少，而且原理也不如層疊K平均分群法使用的Calinski-Harabasz指標(CH指標)容易解釋。因此比起X-means，我個人還是比較推薦使用層疊K平均分群法。本投影片的內容參考了X-means原論文跟[x-means] 1.x-means简介。

(more...)

自動決定最佳化分群數量：層疊K平均分群法 / Determin the Optimal Number of Clusters: Cascade K-means

布丁布丁吃布丁

10月 20, 2017 18 Comments Data Mining Research Software/SPSS Software/Weka Work/Widget

自動決定最佳化分群數量：層疊K平均分群法 / Determin the Optimal Number of Clusters: Cascade K-means

在資料探勘課程常教的K平均法雖然好用，但它最大的問題在於，到底該如何決定分群數量K呢？幸好我們還有其他的分群演算法可以選擇。Weka中另一個分群演算法層疊K平均分群法(Cascade K-means)採用建立大量不同分群數量的做法，評估每一次分群結果的Calinski-Harabasz指標(CH指標)，找出組內距離最短、組間距離最長的最佳分群數量。我在資料聚類：分群跟分群與分類的整合應用：無監督分類器都有使用層疊K平均分群法來自動決定分群數量，這篇就讓我們在Weka中使用層疊K平均分群法來進行分群，並使用Weka分群結果分析器來試著解釋分群結果吧。

(more...)

行為分析之對數線性模式 / Log-Linear Sequential Analysis

布丁布丁吃布丁

10月 20, 2017 0 Comments Presentation Software/SPSS Work/Widget

行為分析之對數線性模式 / Log-Linear Sequential Analysis

這是繼行為分析之時間序列分析之後，對於分析超過二序列之上更長序列的分析方法對數線性模式(Log-linear model)的介紹。一開始是基於Bakeman與Quera在書中介紹的對數線性模式序列分析(log-linear sequential analysis)，為了分析方便，我後面介紹的是使用SPSS實作的對數線性模式分析。但是我對於這個分析方法抱有高度疑惑，各書本對於對數線性模式分析方法不盡相同，而報表解讀也有許多漏洞。這一份對數線性模式分析的方法僅供記錄，並不建議真的這樣使用。

(more...)

時間序列分析與預測 / Time Series Analysis and Prediction

布丁布丁吃布丁

10月 20, 2017 0 Comments Presentation

時間序列分析與預測 / Time Series Analysis and Prediction

這是伴隨在行為分析之時間序列分析的報告中，延伸細談時間序列分析的部分。投影片的內容是參考了林惠玲、陳正倉老師所著的「應用統計學」以及其他時間序列分析的相關書籍綜合而成。大部分時間序列分析的介紹仍是環繞著ARIMA技術的模型，後來我用Weka實作的多變項時間序列預測則採用了機器學習的另類做法。

(more...)

行為分析之時間序列分析 / Time Sequential Behavior Analysis

布丁布丁吃布丁

10月 19, 2017 0 Comments Presentation Research Research/Sequential Analysis

行為分析之時間序列分析 / Time Sequential Behavior Analysis

這是閱讀Bakeman兩本書中行為序列分析與時間相關的兩個章節「9. Analyzing time sequences」跟「11. Time-window and log-linear sequential analysis」的簡報內容。Bakeman將事件編碼的類別資料轉換成比率數字的連續變項，再結合了時間序列分析(Time-series analysis)技術進行處理。在另外一本書則是介紹高階列聯表分析技術線性對數模型(Log-Linear Analysis)，可以分析超越雙事件到N事件的序列檢定。

(more...)

揭露文字資料的量化數值！文字探勘分析器 / A Text Analyzer for Text Mining

布丁布丁吃布丁

10月 19, 2017 7 Comments Research/Text Mining Work/Widget

揭露文字資料的量化數值！文字探勘分析器 / A Text Analyzer for Text Mining

這是我為了文字探勘所做的小工具。一般來說文字資料是一種非結構的質性資料，但其實還是可以透過一些簡單的計算來得知它的量化數值，這樣就能讓不同的文字資料之間的比較有了客觀的基準。這個文字探勘分析器提供了基本的敘述統計指標計算功能，包括文字長度、不同字詞的數量、文字變化程度的熵(entropy)跟辛普森指數(Simposon's Index)，還有以句子、對話句為單位的分析，最後還能將N字詞的頻率分析結果繪製成文字雲。

(more...)

行為順序預測：動態貝氏網路 / Behavior Prediction: Dynamic Bayesian Network

布丁布丁吃布丁

10月 19, 2017 0 Comments Data Mining Series/Big Data Analysis Course Software/Weka Work/Widget

行為順序預測：動態貝氏網路 / Behavior Prediction: Dynamic Bayesian Network

這是巨量資料探勘與統計應用課程中行為順序檢定：滯後序列分析與分類與預測：貝氏網路的進階應用。滯後序列分析只能分析前後兩個行為之間的轉變，如果我們想要預測更多步之後的行為，那我們就需要藉助貝氏網路的預測和推理能力。我們可以決定要為幾步內的行為進行建模，如果是兩步之間的模型，稱之為「二時段貝氏網路」(Two-Timeslice Bayesian Network，2TBN)。而這篇文章將以「四時段貝氏網路」來為幼兒平行遊戲事件序列資料，建立能夠預測和解釋幼兒行為的貝氏網路模型。

(more...)

巨量資料探勘與統計應用課程目錄 / Applications of Big Data and Statistics: Table of Contents

布丁布丁吃布丁

10月 19, 2017 2 Comments Course Series/Big Data Analysis Course

巨量資料探勘與統計應用課程目錄 / Applications of Big Data and Statistics: Table of Contents

這是巨量資料探勘與統計應用課程的投影片「巨量資料探勘與統計應用課程目錄」，也包含了整個課程一開始的導論。本課程的主要核心技術是「資料分析」，而資料分析則含括了「資料探勘」與「統計」這兩種領域，並且適用於處理龐大的「巨量資料」，因此本課程就命名為「巨量資料探勘與統計應用」。為了整理到本blog，我將本系列課程調整為11個單元，由淺入深分成「課程導論與資料處理」、「資料敘述級」、「資料檢定級」、「資料預測級」四大階段，每個單元內都包含該單元要處理的問題與適用資料類型、核心技術。由於當初是以大學生為教學對象，因此本系列課程主要著重在訓練同學擁有實作的即戰力，每個單元都是以二到四個實作學習單組成，輔以少量的公式解說。

這份投影片是巨量資料探勘與統計應用課程的整體介紹，文章也會列出每一個單元的連結。最後我會談談我對這門課程的看法。

(more...)

訂閱：文章 (Atom)

布丁布丁吃什麼？