:::
顯示具有 Work/Widget 標籤的文章。 顯示所有文章

幫操作畫面加個邊框吧!響應式加框網頁工具 / Add a frame on screenshot: Responsive Frame Mockup

幫操作畫面加個邊框吧!響應式加框網頁工具 / Add a frame on screenshot: Responsive Frame Mockup

31-PAW_Frame_Mockup_Add_browser_phone.png

呀呵,大家最近在吃什麼呢?這裡是寫論文也要加個框的布丁。

作為軟體開發者,用螢幕截圖的操作畫面來說明軟體功能,是一件相當常見的工作。如果要讓讀者知道你的操作畫面是在什麼裝置上運作的話,為操作畫面加個對應裝置的邊框,絕對可以幫你的文件大大加分。

為了幫博士論文中的系統操作畫面加上瀏覽器的邊框,我開發了Responsive Frame Mockup網頁工具。它可以為任意尺寸和比例的圖片,加上瀏覽器、智慧型手機、以及平板的框架。以下就讓我們來認識Responsive Frame Mockup這個好用的網頁工具吧!

(more...)

研究生看過來!PDF論文閱讀神器 / Wrapped Text Formatter: Read Large Paragraph Text from PDF in Comfortable Way

布丁布丁吃布丁

研究生看過來!PDF論文閱讀神器 / Wrapped Text Formatter: Read Large Paragraph Text from PDF in Comfortable Way

33闌pupo te work seeks to present a reading agss 01, which can annotate a web page with HTML format archived by the E 設目的 px This work s日鐸普閻商和商情啁返工代台在捐出一佐閉活批註周知識共京工具,它 Je 9 age with ML format可以基於Web 2﹒0技術註釋網頁與HTML格式由台灣 rc WW gital ON ER EEE HERR w設詠/方法/方法 巳N亢一 m [ 3知 戶早夷4 e 7 ¢ 2: 殘皋品和 er採用了這樣的準實驗設計方法隨機分配參與耆的實驗 j煬組, j所建議註釋紹統 公芋 A quasi-exp 4 sign participants to an e e gro 0 evaluate differences in the reaaing performance of learr壘純口分析計割怎用曠譚佗孰生的學習表現,同時讀賣 lor ir普和處理建議的註釋工資學習的差異 【 i 3 s!aristical analvsis seheme was emnlnved in evaliiate圖in 蹟

每次看到PDF中有著一大段的文字時,你會不會感到腦袋跟這些文字一樣糊成一團呢?在讀英文論文的PDF檔案時,總是想把看不懂的段落複製、貼上到Google翻譯,但是你有遇過因為一句話被斷成兩到三行、APA引用的括號卡在中間,讓Google翻譯的結果看起來非常奇怪的窘境嗎?

放心,這些問題通通交給PDF論文閱讀神器來解決。它能將PDF複製的文字重整成一句話一個段落(中英文皆可)、自動翻譯成指定中文,快用它來加快你的論文閱讀速度吧!

(more...)

OneDrive雲端硬碟檔案直接下載連結產生器 / OneDrive File Download Link Generator

OneDrive雲端硬碟檔案直接下載連結產生器 / OneDrive File Download Link Generator

%25E7%25B0%25A1%25E5%25A0%25B11.png

除了Google Drive雲端硬碟可以產生直接下載的連結之外,另一個知名的雲端硬碟OneDrive也能夠產生直接下載連結喔。我參考OneDrive 2017 Direct File Download URL Maker這篇的作法,把連結轉換的功能調整成比較順手的操作,並且加入TinyURL短網址功能。讓我們來看看怎麽做吧。

(more...)

CSV to SQL Table:將CSV試算表加入到關聯式資料庫 / Import CSV File into a Database Table

CSV to SQL Table:將CSV試算表加入到關聯式資料庫 / Import CSV File into a Database Table

image

這是一個將CSV格式資料轉換成關聯式資料庫插入表格與資料SQL語法的網頁工具。可適用於SQLitePostgreSQLMySQL等關聯式資料庫。傳統做研究時比較常用Excel、SPSS等試算表資料,但其實加入到資料庫之後,就能更容易跟其他資料交互比對、分析,也能用資料庫內建的聚合函數(aggregate functions)計算平均數、標準差等統計常用的資料中心與離度,讓資料分析更容易處理喔。

(more...)

Apache Solr:簡單建立全文搜尋引擎 / Apache Solr: Build a Fulltext Search Engine by Yourself

Apache Solr:簡單建立全文搜尋引擎 / Apache Solr: Build a Fulltext Search Engine by Yourself

image

這是我在2015年政大圖檔所網路資訊檢索研究課程中所講的「Apache Solr全文搜尋引擎」。這份投影片教大家如何從無到有建立搜尋引擎。跟單純的關聯式資料庫(RMDB)不同,全文搜尋引擎是以XML檔案設定文件的欄位,並可提供指定欄位、層面等簡單的搜尋查詢條件,還可以進一步全文搜尋引擎特有的斷詞器、停用字、同義字、大小寫、詞幹切截等過濾器與檢索權重排序的設定。這份投影片附帶一份完整的Apache Solr環境,主要是為了Windows環境佈置。其中有個步驟需要將匯入資料的試算表檔案轉換成適合Solr的格式,我發展了一個試算表轉換成Solr XML格式小工具,以便我們匯入資料到Solr中。

(more...)

自動決定最佳化分群數量:層疊K平均分群法 / Determin the Optimal Number of Clusters: Cascade K-means

自動決定最佳化分群數量:層疊K平均分群法 / Determin the Optimal Number of Clusters: Cascade K-means

image

在資料探勘課程常教的K平均法雖然好用,但它最大的問題在於,到底該如何決定分群數量K呢?幸好我們還有其他的分群演算法可以選擇。Weka中另一個分群演算法層疊K平均分群法(Cascade K-means)採用建立大量不同分群數量的做法,評估每一次分群結果的Calinski-Harabasz指標(CH指標),找出組內距離最短、組間距離最長的最佳分群數量。我在資料聚類:分群分群與分類的整合應用:無監督分類器都有使用層疊K平均分群法來自動決定分群數量,這篇就讓我們在Weka中使用層疊K平均分群法來進行分群,並使用Weka分群結果分析器來試著解釋分群結果吧。

(more...)

行為分析之對數線性模式 / Log-Linear Sequential Analysis

行為分析之對數線性模式 / Log-Linear Sequential Analysis

image

這是繼行為分析之時間序列分析之後,對於分析超過二序列之上更長序列的分析方法對數線性模式(Log-linear model)的介紹。一開始是基於Bakeman與Quera在書中介紹的對數線性模式序列分析(log-linear sequential analysis),為了分析方便,我後面介紹的是使用SPSS實作的對數線性模式分析。但是我對於這個分析方法抱有高度疑惑,各書本對於對數線性模式分析方法不盡相同,而報表解讀也有許多漏洞。這一份對數線性模式分析的方法僅供記錄,並不建議真的這樣使用。

(more...)

揭露文字資料的量化數值!文字探勘分析器 / A Text Analyzer for Text Mining

布丁布丁吃布丁

揭露文字資料的量化數值!文字探勘分析器 / A Text Analyzer for Text Mining

image

這是我為了文字探勘所做的小工具。一般來說文字資料是一種非結構的質性資料,但其實還是可以透過一些簡單的計算來得知它的量化數值,這樣就能讓不同的文字資料之間的比較有了客觀的基準。這個文字探勘分析器提供了基本的敘述統計指標計算功能,包括文字長度、不同字詞的數量、文字變化程度的熵(entropy)跟辛普森指數(Simposon's Index),還有以句子、對話句為單位的分析,最後還能將N字詞的頻率分析結果繪製成文字雲

(more...)

行為順序預測:動態貝氏網路 / Behavior Prediction: Dynamic Bayesian Network

行為順序預測:動態貝氏網路 / Behavior Prediction: Dynamic Bayesian Network

image

這是巨量資料探勘與統計應用課程行為順序檢定:滯後序列分析分類與預測:貝氏網路的進階應用。滯後序列分析只能分析前後兩個行為之間的轉變,如果我們想要預測更多步之後的行為,那我們就需要藉助貝氏網路的預測和推理能力。我們可以決定要為幾步內的行為進行建模,如果是兩步之間的模型,稱之為「二時段貝氏網路」(Two-Timeslice Bayesian Network,2TBN)。而這篇文章將以「四時段貝氏網路」來為幼兒平行遊戲事件序列資料,建立能夠預測和解釋幼兒行為的貝氏網路模型。

(more...)

超簡單!文本機器分類入門 / Text Classification with Weka

超簡單!文本機器分類入門 / Text Classification with Weka

image

這篇「超簡單!文本機器分類入門」是我在2017年3月於政大圖檔所資料探勘課程中的演講內容,之後演化成後來我在巨量資料探勘與統計應用課程中「非結構化資料分析:文本分類」單元的內容。如果想要看比較完整的文本分類介紹,請看「非結構化資料分析:文本分類」這篇。不過想要看獨立的文本分類課程的話,那也可以從這篇開始看起喔。

(more...)

非結構化資料分析:文本分類 / Unstructured Text Analytics: Text Classification

非結構化資料分析:文本分類 / Unstructured Text Analytics: Text Classification

image

這是巨量資料探勘與統計應用課程的投影片「非結構化資料分析:文本分類」。本單元是屬於系列課程中的「資料預測級」中最後一個單元。處理資料類型是為非結構化的資料進行分類,也就是使用類別資料。這邊使用了Jieba斷詞來作文本語義分析,然後使用樸素貝氏多項式文本分類器(NaiveBayesMultinomialText)來為文本進行分類,最後還用特徵篩選(Select attributes)找出關鍵字。到底圖書館員分類編目的核心技能會不會被這篇所講的自動化文本分類機器所取代呢?看完這個單元你就可以知道結果了。本單元使用了二個我自製的工具來搭配Weka實作文本分類,單元內包含了四份實作學習單跟一份測驗,供同學邊看邊練習。這個單元包含了四個實作學習單跟一份測驗,供同學邊看邊練習。

(more...)

貝氏網路的結果預測與原因推理:基於專家知識建構的網路結構 / Prediction and Inference with Bayesian Networks Model: Based on Expert Knowledge

貝氏網路的結果預測與原因推理:基於專家知識建構的網路結構 / Prediction and Inference with Bayesian Networks Model: Based on Expert Knowledge

image

前面我將貝氏網路的分類與預測投影片放到blog上,這一篇則是用圖文解說的方式來說明如何在Weka中使用貝氏網路。貝氏網路是一種機器學習預測的方法,其做法大概跟之前所介紹的用Weka分類模型來預測未知案例差不多。貝氏網路分類器本身的正確率通常不高,但是它能夠結合專家知識或領域知識(domain/prior knowledge)來建立預測模型,使得預測結果比較符合人類的思維。另一方面,貝氏網路也可以根據任何已知結果來推理發生的原因,讓我們更容易解釋最後結果。跟類神經網路、支持向量機難以解釋的黑箱演算法相比,貝氏網路這種白箱(white-box)演算法雖然正確率較差,但卻更容易用在任何研究中,協助我們推測研究結果、解釋造成原因。

(more...)

分類與預測:貝氏網路 / Classification and Prediction: BayesNet

分類與預測:貝氏網路 / Classification and Prediction: BayesNet

image

這是巨量資料探勘與統計應用課程的投影片「分類與預測:貝氏網路」。本單元是屬於系列課程中「資料預測級」的第一個單元,處理資料類型是從「類別」來預測「類別」類型的資料。貝式網路(BayesNet)是一種能夠表示變項間因果關係的機率模型,原理簡單、計算速度快,不僅可以用來預測結果,還能推理可能的原因。貝式網路是早期專家決策支持系統最常使用的模型,例如可以用來協助醫生找尋病因。本單元先用簡單「吸菸可能造成生病」的例子來說明貝式網路的運作方式,再來使用Weka來建立貝式網路結構、準備訓練集跟測試集、顯示貝式網路模型以及預測結果。本單元使用了四個我自製的工具來搭配Weka實作貝式網路預測,單元內包含了三個實作學習單跟一份測驗,供同學邊看邊練習。

(more...)

行為順序檢定:滯後序列分析 / Behavior Analysis: Lag Sequential Analysis

行為順序檢定:滯後序列分析 / Behavior Analysis: Lag Sequential Analysis

image

這是巨量資料探勘與統計應用課程的投影片「行為順序檢定:序列分析」。本單元是屬於系列課程中的「資料檢定級」的最後一個單元,處理資料類型也是在行為的「類別」類型資料,使用的分析技術就是以前我常常提到的滯後序列探勘(lag sequential analysis)。滯後序列分析是延伸前一單元列聯表的檢定方式,但是不像卡方統計量是用於檢定整體列聯表,它使用Allison與Liker(1982)的調整後殘差計算方式來做細格檢定。雖然資料類型都以列聯表呈現,不過計算方法可是差很多的喔。跟以前我介紹滯後序列分析的內容相比,這次不僅採用比較嚴謹的Allison與Liker的計算方法,還加入了相關係數Yule'Q的計算,並直接用jsPlumb畫出了事件轉移圖。本單元使用我所開發的滯後序列分析計算器來作計算,包含兩個實作學習單跟一份測驗,供同學邊看邊練習。

(more...)

類別變項的相關檢定:卡方獨立性檢定 / Correlations with Categorical Variables: Chi-Square Test of Independence

類別變項的相關檢定:卡方獨立性檢定 / Correlations with Categorical Variables: Chi-Square Test of Independence

image

這是巨量資料探勘與統計應用課程的投影片「類別變項的相關檢定:卡方獨立性檢定」。本單元是屬於系列課程中的「資料檢定級」中的第三個單元,處理資料類型是「類別」類型的資料,可以檢測出兩兩類別資料之間的關係。本單元要講的分析技術是推論統計的卡方獨立性檢定(Chi-Square Test of Independence),相當適合質性研究所蒐集的類別資料或行為分析。本單元的分析工具是我額外開發的「卡方獨立性檢定計算器」,在投影片裡面還談到了隱含在卡方檢定之後的陷阱:辛普森詭論(Simpson's paradox)。這個單元包含了四個實作學習單,供同學邊看邊練習。

(more...)

你玩過滑塊拼圖嗎?可自訂的HTML5滑塊拼圖遊戲 / Customizable Sliding Puzzle in HTML5

你玩過滑塊拼圖嗎?可自訂的HTML5滑塊拼圖遊戲 / Customizable Sliding Puzzle in HTML5

image

畫了一張圖、拍了漂亮的照片,還可以做什麼加值應用呢?我參考Venkat Pola的程式碼,將我很喜歡玩的遊戲「滑塊拼圖」做成了可直接在瀏覽器執行的線上遊戲,而滑塊拼圖的圖片還可以由使用者自訂喔。這篇就來說明我做的這個滑塊拼圖遊戲吧。

(more...)

HTML編輯器自己做!布丁版TinyMCE編緝器 / An Online HTML Editor: Customized TinyMCE Editor

HTML編輯器自己做!布丁版TinyMCE編緝器 / An Online HTML Editor: Customized TinyMCE Editor

image

說到編輯HTML的編輯器,你會想到那個工具呢?純寫程式碼用的Sublime TextNotepad++?給不會程式碼用的Word轉存HTML格式?混合編輯的Dreamweaver?真要我說的話,目前我看過最好、最乾淨、各種編輯器之間轉換最漂亮的編輯器,就是TinyMCE

TinyMCE一般只是作為網站裡面將<textarea>轉變為所見即得編輯器的小工具,能像是編輯Word一樣地編輯HTML網頁,最後產生的HTML程式碼又乾淨又漂亮。我因為太常使用TinyMCE來編輯HTML網頁程式碼,特別是表格的編輯,所以乾脆索性把TinyMCE做成獨立的布丁版TinyMCE編輯器,讓人需要的時候就直接打開網頁、使用TinyMCE編輯網頁吧。

(more...)

用網頁來做合併列印!HTML合併列印小工具 / Online HTML Mail Merger

用網頁來做合併列印!HTML合併列印小工具 / Online HTML Mail Merger

image

如果要用試算表資料搭配有格式的文件,批次地產生大量檔案的話,要怎麼呢?Word為主的合併列印方案都只能在單一檔案中產生許多重複範本的內容,不符合我的需求。於是我乾脆重新寫一個能夠以CSV試算表檔案搭配HTML網頁範本產生合併列印效果的線上版合併列印小工具:HTML Mail Merger。它會讀取CSV中的欄位資料以及檔案名稱(filename)欄位,以此批次產生取代以大括弧「{}」夾住的佔位符號和指定檔案名稱的檔案。合併列印再也不用仰賴Word,直接線上就處理完成吧。

(more...)

試作歷程序列資料的動態生成模型:結合多層次感知機與增強學習的應用 / Developing a Dynamic Path Generator base on Users’ Activity Logs: a MLP and Reinforcement Learning Approach

試作歷程序列資料的動態生成模型:結合多層次感知機與增強學習的應用 / Developing a Dynamic Path Generator base on Users’ Activity Logs: a MLP and Reinforcement Learning Approach

image

繼前一篇談完歷程資料的分析方式之後,本篇則是從機器學習的角度切入,藉由分析不同背景使用者的操作歷程序列資料,並將對歷程結果的評價作為輸入資料,以此訓練一套懂得不同特質使用者會如何操作的多層次感知機(MLP)預測模型。接著再以任意一位使用者為背景,用此模型來生成一套評價較好的操作序列路徑。為了避免模形產生的路徑陷入無限迴圈,本篇以增強學習(Reinforcement learning)來懲罰會走到迴圈的序列路徑。

結果最後產生的序列路徑過度受到增強學習的影響,使得使用者的背景因素與歷程評價的影響變得微乎其微。這篇是為了記錄這一連串開發的過程、思維,以及未來的改進方向。這整套系統皆以JavaScript網頁開發,全部原始碼與資料都放在GitHub上,線上展示網址為: https://pulipulichen.github.io/dynamic-generative-path/

(more...)

區間估計不用再查表了!信賴區間計算器 / Confidence Intervals Calculator

區間估計不用再查表了!信賴區間計算器 / Confidence Intervals Calculator

簡報1

區間估計是學習推論統計的第一道關卡,但是計算區間的門檻卻相當的高。計算區間估計時,要知道資料適用的分佈、各種分佈對應的誤差範圍的計算公式、並搭配z分佈t分佈的查表等技巧,儘管如此,這些步驟其實也只是機械化的動作已,用人腦來算其實是挺沒效率的一件事情。

因此,我參考深入淺出統計學的公式與範例,以JavaScript製作了一份純網頁版本的信賴區間計算器。當任何研究使用想要從樣本來推估母體參數時,都可以用這個信賴區間計算器來計算母體參數可能位於的區間。

(more...)