:::
顯示具有 Research 標籤的文章。 顯示所有文章

訪談逐字稿的好幫手:雅婷逐字稿 Studio / Yating Studio: A Helpful Tool for Interview Transcripts

布丁布丁吃布丁

訪談逐字稿的好幫手:雅婷逐字稿 Studio / Yating Studio: A Helpful Tool for Interview Transcripts

2024-0713-115052.png

雅婷逐字稿加入了語音轉文字的轉錄功能後,可以為分析錄音檔的研究者帶來更多的幫助。他的時間戳記與錄音檔的對照、可修正的逐字稿、以及標亮重點(highlight)等功能,都很值得大家參考喔。

(more...)

公式的樣式小不同:IEEE跟APA的比較 / Differences in Equation Formatting: A comparison between IEEE and APA

布丁布丁吃布丁

公式的樣式小不同:IEEE跟APA的比較 / Differences in Equation Formatting: A comparison between IEEE and APA

2024-0119-024843.png

IEEE跟APA不僅僅是參考文獻的格式,論文寫作的樣式都是它們管轄的範圍,當然也包括公式(equation)了。

(more...)

PHP文內關鍵字索引全文資料庫 / PHP KWIC Database

PHP文內關鍵字索引全文資料庫 / PHP KWIC Database

image

這個PHP KWIC Database是我在進行文本分析研究中的一個產物。文內關鍵字索引(Key Word In Context)的做法是將檢索的關鍵字擺在查詢結果中間,前後呈現該關鍵字的前後文。這不僅只是拿來搜尋具有該關鍵字的文本,還能夠進一步知道該關鍵字在這些文本中的用法。在許多人文研究中,具備引得查詢資料庫是非常重要的研究工具,許多語料庫(corpus)都有提供。可惜的是,現在許多全文檢索系統都沒有實作引得,包括Apache Solr。所以我在2016年年初的研究中順手寫了這個PHP KWIC Database,並將之整理成框架,讓大家能夠簡單地使用Excel整理文本資料後,並利用Convert to SQLite Online將Excel檔案轉換成SQLite資料庫,就能夠並使用PHP KWIC Database來進行檢索與分析。

(more...)

如何分析偏好排序問卷? / How to Analyze Ranking Scale Results?

布丁布丁吃布丁

如何分析偏好排序問卷? / How to Analyze Ranking Scale Results?

image

(圖片來源:ROPER)

對圖書館、系統開發與任何提供服務的相關研究來說,研究者會很想知道使用者到底注重或期待的是什麼功能。舉例來說,系統預計開發的六個功能中,請使用者由最期待到最不期待的順序依序排序;圖書館提供的七項服務中,請讀者由最重要到最不重要的順序依序排序。蒐集完這個資料之後,接下來要怎麼分析好呢?大部分的工具僅止於敘述統計,例如平均數計算次數分配表。但其實應該進一步使用Friedman檢定與事後多重比較Bonferroni校正,或是列聯表分析,它們都能在排除隨機性之後找出更令人信服的結果順序。這篇以冰淇淋口味偏好兩種不同調查結果為例,說明排序問卷在SPSS中的分析方法。

(more...)

自動決定最佳化分群數量:層疊K平均分群法 / Determin the Optimal Number of Clusters: Cascade K-means

自動決定最佳化分群數量:層疊K平均分群法 / Determin the Optimal Number of Clusters: Cascade K-means

image

在資料探勘課程常教的K平均法雖然好用,但它最大的問題在於,到底該如何決定分群數量K呢?幸好我們還有其他的分群演算法可以選擇。Weka中另一個分群演算法層疊K平均分群法(Cascade K-means)採用建立大量不同分群數量的做法,評估每一次分群結果的Calinski-Harabasz指標(CH指標),找出組內距離最短、組間距離最長的最佳分群數量。我在資料聚類:分群分群與分類的整合應用:無監督分類器都有使用層疊K平均分群法來自動決定分群數量,這篇就讓我們在Weka中使用層疊K平均分群法來進行分群,並使用Weka分群結果分析器來試著解釋分群結果吧。

(more...)

行為分析之時間序列分析 / Time Sequential Behavior Analysis

行為分析之時間序列分析 / Time Sequential Behavior Analysis

image

這是閱讀Bakeman兩本書中行為序列分析與時間相關的兩個章節「9. Analyzing time sequences」跟「11. Time-window and log-linear sequential analysis」的簡報內容。Bakeman將事件編碼的類別資料轉換成比率數字的連續變項,再結合了時間序列分析(Time-series analysis)技術進行處理。在另外一本書則是介紹高階列聯表分析技術線性對數模型(Log-Linear Analysis),可以分析超越雙事件到N事件的序列檢定。

(more...)

分群與分類的整合應用:無監督分類器 / Building an Unsupervised Classification: Integrating Cluster and Classification in Weka

布丁布丁吃布丁

分群與分類的整合應用:無監督分類器 / Building an Unsupervised Classification: Integrating Cluster and Classification in Weka

image

最近有讀者問到要怎麼在建立的分群結果之後,對後面新增的資料再依照前面的規則新增分群標籤。這就讓我想起來資料探勘課本裡面常常提到的一個機器學習議題:無監督式的監督學習 (Unsupervised Supervised Learning),或是成為不需訓練目標的分類法 (Classification wihtout labels),這篇就叫它作無監督分類器(Unsupervised Classification)。這個做法大多都是將分群結果作為分類的目標標籤,再以此建立分類模型。這種做法聽起來難度挺高的,不過實際在Weka中,我們只要動點巧思,不用寫任何程式,就可以實作這個高級分類技巧。這篇就來介紹一下如何實作無需監督的分類器吧。

(more...)

參加國際會議經驗分享 / How to Participate in a Conference?

布丁布丁吃布丁

參加國際會議經驗分享 / How to Participate in a Conference?

image

我在上週受邀去ASIS&T臺北分會所舉辦的「行動裝置資料與使用者研究工作坊」的「學生參與國際活動之經驗分享」分享參與國際會議的經驗。現在學術圈大多鼓勵學者參加Call for Papers類型,以全文(full paper)發表並口頭報告(oral),因此我的重點也放在如何參與這種國際研討會上。我就參與IMLF 2014IFLA WLIC 2015兩場的經驗,將整個流程歸納成 1. 投稿、2. 行程安排、3. 參與會議、4. 結案報告 的四大階段,而投影片內更加著重說明投稿時選擇研討會、投稿計劃書、摘要與全文、準備投影片和講稿的做法。在上週工作坊中因時間不夠,沒有機會跟大家好好說明,我還是在這裡放上投影片,希望可以嘉惠有意參與國際研討會的莘莘學子。

(more...)

社會網絡分析之隨機圖模型 / Social Network Analysis: Random Graph Models

社會網絡分析之隨機圖模型 / Social Network Analysis: Random Graph Models

image

這是介紹「PAJEK 蜘蛛: 社會網絡分析技術」這本書中的第13章「隨機圖模型」的投影片。這本書使用社會網絡分析工具「pajek 蜘蛛」來分析研究者所蒐集的實測社群本身可能符合或不符合那些隨機圖模型(random graph models)。書中介紹的隨機圖模型包括伯努利隨機圖模型(Bernoulli random graph model)、條件統一隨機圖模型 (Conditional uniform random graph models)、小世界模型 (small world model)與優先連接模型 (scale free model),它們有各自的假設背景、建構網絡的隨機過程以及展現出來結構特徵。本書以蒙特卡洛模擬(Monte Carlo simulation)來建構各個隨機圖模型的信賴區間,藉以判斷實測網路與這些隨機圖模型的異同。

(more...)

社會網絡分析之塊模型 / Social Network Analysis: Block Modeling

社會網絡分析之塊模型 / Social Network Analysis: Block Modeling

image

這是介紹「PAJEK 蜘蛛: 社會網絡分析技術」這本書中第12章「塊模型」的投影片。這本書使用社會網絡分析工具「pajek 蜘蛛」來找出社群中人與人之間互動的共同模式,稱之為「塊」(block)。在塊模型中是以鄰接矩陣作為分析工具,而本章則介紹了塊模型的基本概念,全型塊(complete)、無型塊(null)、正則塊(regular)等塊的類型,並介紹核心──週邊架構(core-periphery structure)、與等級架構(hierarchical structure)等常見的塊模型。值得注意的是,蜘蛛的塊模型處理方式跟UCINet中塊模型的處理方式不同,我個人覺得蜘蛛的塊模型分析比較讓人容易理解。

(more...)

談歷程資料分析:從摘要統計到個別序列 / Analyzing Activity Logs: From Summary Statistics to Individual Sequence

談歷程資料分析:從摘要統計到個別序列 / Analyzing Activity Logs: From Summary Statistics to Individual Sequence

image

最近我試著應用機器學習到歷程序列資料的分析上,想說在這裡記錄一下進度與想法。不過在講歷程序列資料的分析之前,我想有必要先跟大家回顧一下所謂的歷程資料(activity logs)中的摘要統計與個別序列的差別,以及分析歷程統計資料和歷程序列資料的可能做法,這樣才能說明為什麼我要將機器學習應用在歷程序列資料分析上。這些方法跨了相當多領域,有些技術解釋與名詞選擇不甚嚴謹,望各位先進不吝指教。

(more...)