:::

如何用推論統計驗證「PokeStop左轉可以提升寶貝球出現率」:使用R雲端資料分析暨引導系統 / How to Test “Get More Balls while Turning PokeStop Left” with R-web

image

許多文組的學生都對統計敬而遠之,但其實統計不僅跟我們的生活息息相關,甚至我們可以輕易使用統計來解決生活中的很多問題。而使用統計也不需要安裝SPSS,我們只要用免費的「雲端資料分析暨引導系統」(R-Web)就能夠做完大部分的工作。

這次藉著寶可夢熱潮,我們來就來實際驗證看看「PokeStop左轉可以提升寶貝球出現率」這個消息吧。


什麼是PokeStop? / What is PokeStop?

Screenshot_2016-08-24-19-42-27

PokeStop是手機遊戲Pokemon Go的道具補給站。只要轉動PokeStop,就能夠獲得寶貝球(ball)、藥水(potion)等遊戲中會使用的道具。藥水只有在進行道場對戰時才會用到,而寶貝球則是在一般抓寶可夢的時候就會使用。因此大部分玩家會比較需要寶貝球,而比較不想要拿藥水。

這時候有個日本傳來的消息:「PokeStop 左轉右轉道具有分別? 不想要 Potion 請左轉!!」,說如果將PokoStop向左轉(手指從螢幕右邊滑向左邊)會提升寶貝球的出現機率,反之,如果將PokeStop向右轉則會提升藥水出現的機率。這是真的嗎?

建立虛無假設與對立假設 / Setup Statistical Hypothesis

原本的條件設定有向左轉跟向右轉之別,用來介紹稍微有點複雜。我將這個條件簡化成一條:「PokeStop向左轉時寶貝球的出現數量,會大於向右轉時寶貝球的出現數量」。雖然這跟原本說法中的「出現率」有些不同,但我相信玩家們會更想知道怎樣才能取得更多寶貝球,而不在乎機率的問題。

根據統計課本的說法,我們現在要先來建立統計假設:

  • 虛無假設 H0:PokeStop向左轉時寶貝球的出現數量,等於向右轉時寶貝球的出現數量。
  • 對立假設 H1:PokeStop向左轉時寶貝球的出現數量,大於向右轉時寶貝球的出現數量。

我們的目標是否定虛無假設,也就是否定「PokeStop向左轉時寶貝球的出現數量,等於向右轉時寶貝球的出現數量。」

取樣 / Sample Data

2016-09-26_200714

為了檢測上面的兩種假設,我花了一點時間來記錄轉動不同方向PokeStop所得到的寶貝球數量。資料保存在Google雲端硬碟上,你可從以下連結下載:

這個資料有三欄,說明如下:

  1. id:只是計算筆數用的,不一定要有。
  2. left_balls:這是記錄每一次向左轉動PokeStop出現的寶貝球數量,總共33筆資料。此處不考慮寶貝球的種類,只要是寶貝球都算。
  3. right_balls:這是記錄每一次向右轉動PokeStop出現的寶貝球數量,總共31筆資料。同樣的,這也不考慮寶貝球的種類。

因此我們的樣本是向左轉33筆跟向右轉31筆。根據中央極限定理來看,通常抽樣數量超過30個以上,資料的分佈就會近似於常態分佈,就能夠以獨立樣本t檢定來進行檢測。

使用雲端資料分析暨引導系統 / R-Web

image

大部分學校老師都會教同學用SPSS來計算像是獨立樣本t檢定這種推論統計,而SPSS不僅貴、安裝又複雜,光是要準備好一個SPSS就讓同學叫苦連天。儘管學校可能會購買SPSS,但畢業之後就不能使用,那學了意義也不大。這種自由軟體的爭論可以看我以前寫的「從統計軟體R來看自由軟體與教育」。

感謝中華R軟體研發暨應用協會團隊所開發的「雲端資料分析暨引導系統」,我們可以直接透過瀏覽器使用類似SPSS的強大統計工具。使用上非常簡單,不需要安裝,更重要的是,我們可以免費使用這個系統來計算各種統計問題。

加入會員 / Registration

image

使用雲端資料分析暨引導系統的功能必需要先註冊,才能上傳需要分析的資料檔。加入會員僅需要帳號、密碼、電子信箱,以及跟一些基本的個人資料,不需要信用卡資料。透過簡單的電子信箱認證,就註冊完成了。

如果已經加入會員了,則可以從以下網址登入:

以下我們的操作都是在登入之後進行。

1. 上傳資料檔 / Upload Data

image

首先我們要把剛剛取樣的資料上傳到這個系統中,以方便後續的計算。請點選「資料處理」,選擇「管理資料檔」,進入「上傳資料檔」。

image

在「請選擇要上傳的資料檔」這裡,上傳剛剛下載的left_right_balls.csv,然後按下「確認上傳」。

image

接下來可以設定資料的匯入方式。這些都採用預設值即可,直接按「下一步驟」。

image

這裡要設定資料的變數形態,像是數字或類別(文字)。它會聰明地自動幫我們偵測好正確的形態,就是「數值」。我們也直接按「確認儲存」即可。

image

看到「資料檔列表」中有資料出現之後,就表示資料已經上傳完成囉。

2. 平均數檢定之(獨立)雙樣本檢定 / Two-Sample t-test

接下來我們要來檢測PokeStop向左轉跟向右轉的寶貝球出現數量有沒有差異。要檢測數量有沒有差異,最常用的是平均數的檢定。而上面取樣中,向左轉跟向右轉兩種樣本都是各別取樣,沒有成對的關係,因此這是獨立雙樣本的檢定。

image

請打開「分析方法」,選擇「平均數檢定」,進入「(獨立)雙樣本」。

下一個頁面中要設定的項目很多,我們一一操作。

image

步驟一:資料匯入,在這裡我們要選擇「使用者個人資料檔」,然後選擇剛剛上傳的資料。

image

步驟二:資料形態設定,這裡我們要選擇「資料形態為兩獨立樣本」。

image

步驟三:參數設定。在選擇要進行分析的變數中,我們選擇「left_balls」,按檢定樣本一左邊的「->」按鈕,把它設定為檢定樣本一。同樣地,再來選擇「right_balls」,按檢定樣本二左邊的「->」按鈕,把它設定為檢定樣本二。

接著請按下「進階選項」,它會跳出一個進階選項設定視窗。

image

在進階選項設定中,我們要選擇檢定方向為「單尾(右)」,表示要檢測left_balls數量是否大於right_balls,然後將「顯示樣本敘述統計量」打勾,按「儲存設定」。

接著在原本的視窗中按下「開始分析」。需要等一段時間之後,就會顯示輸出結果的畫面。

3. 輸出結果 / Result

image

在輸出結果畫面中有很長一串的資訊,以下我簡單說明我們需要關注的資料。

image

在「樣本敘述統計量」中,我們可以看到left_balls與right_balls的樣本數、平均數跟標準差,兩者平均數為2跟2.0968,跟標準差一起考量來看,已經可以預先猜到兩組並不會有很大的差異。

image

繼續往下捲動,我們可以看到推論統計中最關鍵的p-值,p=0.64691。而最後分析結果建議也幫我們把結論整理好了:由於統計結果P-值(0.64691)  > 顯著水準0.05,因此無法拒絕虛無假設。

換句話說,我們無法否定PokeStop向左轉時寶貝球的出現數量,等於向右轉時寶貝球的出現數量」,只好接受這個假設。結論就是「PokeStop向左轉時寶貝球的出現數量,並沒有大於向右轉時寶貝球的出現數量」。玩家發現這樣的現象很可能只是偶然的個案,實際上很可能沒有這樣的規則喔。


結語 / Conclusion

在這篇中,我用大家生活隨手可得的資料以及免費又好上手的雲端資料分析暨引導系統來驗證了一個假說。當然,這背後有些細節操作需要統計知識才做的出來,像是如何建立假說、如何抽樣、如何解釋數據。反而最後跑統計工具只是程序性的小工作而已。

關於雲端資料分析暨引導系統的詳細操作,除了網站上就已經有相當豐富的影片教學之外,也可以參考「統計學:R-Web分析導論-生活中的統計應用14篇」這本書的介紹。

今天只是牛刀小試而已,未來應該有機會繼續用「雲端資料分析暨引導系統」繼續教大家統計喔。