行為順序檢定:滯後序列分析 / Behavior Analysis: Lag Sequential Analysis
這是巨量資料探勘與統計應用課程的投影片「行為順序檢定:序列分析」。本單元是屬於系列課程中的「資料檢定級」的最後一個單元,處理資料類型也是在行為的「類別」類型資料,使用的分析技術就是以前我常常提到的滯後序列探勘(lag sequential analysis)。滯後序列分析是延伸前一單元列聯表的檢定方式,但是不像卡方統計量是用於檢定整體列聯表,它使用Allison與Liker(1982)的調整後殘差計算方式來做細格檢定。雖然資料類型都以列聯表呈現,不過計算方法可是差很多的喔。跟以前我介紹滯後序列分析的內容相比,這次不僅採用比較嚴謹的Allison與Liker的計算方法,還加入了相關係數Yule'Q的計算,並直接用jsPlumb畫出了事件轉移圖。本單元使用我所開發的滯後序列分析計算器來作計算,包含兩個實作學習單跟一份測驗,供同學邊看邊練習。
單元大綱 / Outline
- 行為序列資料表
- 滯後序列分析
- 滯後序列分析:樣本統計量 事件轉移表
- 滯後序列分析:檢定統計量 調整後的殘差
- 實作:序列分析
- 深入探討序列分析
- 課堂練習:幼兒平行遊戲行為研究
- 序列分析的應用
投影片 / Slide
- 教學投影片: Google Presentation
- 教學投影片其他格式: Power Point、 PDF、 OpenDocument Presnetation
我以Google簡報的檔案匯出成PPTX,再備份到以下位置:
- SlideShare 、 GitHub 、 OneDrive 、 Box 、 Mega 、 MediaFire 、 Google Drive
結論寫作框架 / Result Framework
請參考以下結論框架,將底線的文字改為合適的內容,完成滯後序列分析的結論吧。
研究目的 | ||||
本研究使用序列分析來檢定(研究對象)的行為序列資料中(寫出每一個事件「編碼」)之間是否有顯著轉移。 | ||||
樣本敘述統計量 | ||||
研究對象共(研究對象數量)位,事件總數為(事件總數)次。 (每個事件編碼都寫一次)
雙事件轉移序列總數為(序列總數)次。 | ||||
序列分析結果 | ||||
| ||||
事件轉移圖 (如果整體統計檢定達到顯著才寫) | ||||
(可截取序列分析計算器的事件轉移圖) |
舉例來說,像是:
研究目的 | ||
本研究使用序列分析來檢定遊客的行為序列資料中事件「A 熱帶莽原區」、事件「B 叢林區」與事件「C 沙漠區」之間是否有顯著轉移。 | ||
樣本敘述統計量 | ||
研究對象共1位,事件總數為10次。
雙事件轉移序列總數為9次。 | ||
序列分析結果 | ||
| ||
事件轉移圖 (如果整體統計檢定達到顯著才寫) | ||
學習單 / Worksheets
本單元包含了以下的學習單,請搭配課程投影片一起練習吧。
測驗 / Examine
本單元整理了一份測驗,供同學驗證所學:
資料集 / Dataset
本單元用到了以下資料:
- 遊客所在區域事件序列資料表:我自己編撰的例子。
- 幼兒平行遊戲事件序列資料表:這個例子來自Bakeman跟Gottman所著的「Observing interaction: an introduction to sequential analysis」。我之前的序列分析介紹也是用這個例子。
- 讀者瀏覽網頁行為序列:修改自孫賢潔所著的「行動政府網頁設計準則影響資訊尋求之研究」中的部分受試者資料,使用者名稱與行為皆經過編碼處理。
線上操作平臺 / Online Workplace
以上的實作不需用到本機端的軟體,全部使用以下雲端服務。建議使用Google Chrome瀏覽器開啟:
計算器 / Calculator
行為序列資料格式 / Behavior sequential data format
儘管Bakeman跟Gottman在書中有介紹過幾種行為編碼的格式,但是我在考慮到從資料庫取得資料與記錄的方便性後,還是決定制訂一份比較簡單的行為序列資料格式。這個格式包含了三個欄位:
- 研究對象編號:可以是數字或文字,用來辨識不同的研究對象。
- 序列編號:必須是數字,用來表示行為順序。如果是時間格式,請把它換成數字,例如換成Unix時間。
- 事件:可以是數字或文字,用來研究對象在該時間點作的事情。如果研究對象在同一個時間點做了兩個事件,那可以用兩行相同的研究對象編號、序列編號,記錄不同的事件。
我在另一篇「循序樣式探勘:以Python的PrefixSpan實作」也是採用相同的格式。也就是說,同一份行為序列資料,我們既可以用滯後序列來分析,也可以用循序樣式探勘來分析。至於我早先寫的序列分析工具跟循序樣式探勘工具,就不要再使用了吧。
對滯後序列分析的誤解 / Misunderstanding about Lag Sequential Analysis
儘管這件事情我一直有在各個介紹中強調,但很遺憾的是,我還是常常聽到有人對序列分析結果有著錯誤的解讀方式。以上圖的表格來說,C->A的2次出現了顯著轉移,許多人就會解讀為「研究對象很常作C到A的動作」,但這樣解讀是錯誤的,這樣侯老師又要難過了。仔細看看表格的內容,不僅C->A是2次,連A->B與B->C也都是2次。顯然的,「很常作C到A的動作」這個說法並不合理,因為研究對象也很常作「A到B」與「B到C」啊。
那為何只有C->A的2次被視為顯著轉移呢?讓我們更仔細地閱讀表格,你會發現到研究對象只要作C的時候,下一個動作事件全部都會是A。另一方面,A之後的下一步可能會是A (1次)、B (2次)、C (1次);B之後的下一步可能會是B (1次)或C (2次)。可以看出C之後預測A的機率是100%,因此C->A才會顯著。詳細的公式就請參考投影片吧。
因此,我們不能說「研究對象很常作C到A的動作」,應該說「研究對象只要作了C,下一步很高的機會會做A」。至於研究對象到底很常作C->A、A->B、B->C的那種組合,不好意思,這不是滯後序列分析要回答的問題,但你可能可以在滯後序列分析找到這個答案,請見我所介紹的另一篇「循序樣式探勘:以Python的PrefixSpan實作」。
為什麼不用卡方檢定? / Limitation of Chi-square test
雖然滯後序列分析也是列聯表的一種分析方法,但是卻不是用卡方檢定來分析。這個原因在Bakeman與Gottman的書中也有說明。這是因為卡方檢定對資料有所要求,資料的樣本數量最好超過30以上,而列聯表的細格為0的數量不可以超過細格總數的1/4。但是在行為序列的事件轉移表中,研究對象不太可能會發生所有事件組合都平均做過數次的情況,因此勢必會有很多細格會以0表示。這就造成了行為序列轉換不能用卡方檢定,而是要用滯後序列分析的原因。
小結 / In closing
繼上一次卡方檢定講的太簡單,導致很快就教完的教訓。這次講滯後序列分析時我就特別花多點時間在介紹不同的例子、計算方式與滯後序列分析的延伸應用。這次調整授課方式的結果,反而讓整個授課流程稍微有點緊湊了,好像也應該適度地刪減一些內容啊?
不管怎麼說,在講過很多次滯後序列分析的研究後,我覺得這次教課的內容應該是最容易讓人理解,另外撰寫的滯後序列分析計算器也是至今為止最好用的一個。
而且這次的滯後序列分析計算器不僅只是算出報表,還有搭配結論寫作框架的文字結論,以及基於資料敘述級分析步驟所提到的「先把資料畫成圖」的原則,直接在網頁上呈現了行為序列轉移圖,我自己還蠻滿意的。
寫到這裡忽然想起來應該還要加上樣本敘述統計量的圓餅圖,不過這次就先這樣吧,如果下次還要講的話,我再來繼續改進。
這份滯後序列分析計算器做完後,就直接應用到該屆學弟妹的碩士論文中,分析出許多令人感興趣的結果,他們也就順利畢業了。而我,呃……還在寫blog……
紀念動物朋友 / For Kemono Friends
眼力不錯的讀者也許會發現本單元裡面出現了很多「動物朋友」的畫面。在教完這堂課的時候,有位學生很驚訝地跟我說:「原來老師也很宅!」但事實上這系列課程在第一堂介紹時就已經出現柯南跟Pokemon Go,第二堂資料的來源與形態時也有Pokemon跟死神等人物出場,看來要不是該同學的動漫知識不夠深,就可能是上課不夠認真吧?
事實上,我為了在本單元想一個合適介紹行為序列的例子,可真的是花了我許多時間。最後我才想比較容易理解的「遊客所在區域事件序列資料表」,這例子也剛好比較容易讓同學套用在其他的現實案例中。畢竟像Bakeman等人在書中舉的觀察研究法,是真正的行為研究者才會去做的事情啊。而這個例子也就很剛好地跟去年的熱門動畫動物朋友搭上線,所以我以此為教材來教序列分析。上課的時候的確蠻能吸引同學們的注意,甚至還有同學在教學評鑑的建議是:「老師講的動漫都是去年的,希望老師可以引用新一點的動漫」,這個我沒辦法,只好在精力旺盛的追番黨前給跪了。
(圖片來源:[達人專欄] 動物朋友撤換監督事件(燃燒的紙飛機))
話說回來,其實我在把授課內容投影片放到blog的時候,都會對內容做一些調整,以免帶來過於侵權的爭議。特別是動物朋友幾乎貫穿這整個單元,我本來是有在考慮換掉所有內容,改成其他插畫或照片。不過最近動物朋友發生了角川公司撤換關鍵人物監督たつき、引發眾多觀眾怒火的事件。一想到未來可能再也看不到動物朋友這樣兼具知識與樂趣、還能引發現象級熱潮的作品,我想還是繼續把動物朋友留在這個單元的投影片內吧。
關於動物朋友監督被撤換的事件的細節,請看等待著風的旅人所彙整的[達人專欄] 動物朋友撤換監督事件(燃燒的紙飛機)。
講到這邊,你對本單元的滯後序列分析有什麼看法呢?或是講到動物朋友,是否也讓你有些感慨呢?歡迎在下面留言說說你的想法,或是用左邊的AddThis按個讚或分享喔!
0 意見: