TextRank簡介 / Introduction to TextRank
TextRank簡介 / Introduction to TextRank
哈囉,大家最近在吃什麼呢?這裡是思考傳統摘要與自動化摘要之間有何異同的布丁。這篇是我之前介紹自動文字摘要演算法TextRank的10分鐘簡短投影片,並附上實作可以使用的Python腳本,提供給有需要的朋友使用。
(more...)哈囉,大家最近在吃什麼呢?這裡是思考傳統摘要與自動化摘要之間有何異同的布丁。這篇是我之前介紹自動文字摘要演算法TextRank的10分鐘簡短投影片,並附上實作可以使用的Python腳本,提供給有需要的朋友使用。
(more...)10月 03, 2019 38 Comments Data Mining Presentation Software/Weka
啊囉哈~~這裡是整理投影片整理得超久的布丁。
今天要來談的Weka是知名的資料探勘自由軟體,它含括了資料探勘中的三大議題:分群(clustering)、關聯規則探勘(association rule mining)以及分類(classification)。想要學習資料探勘的基本概念,並快速開始進入資料探勘實作的話,Weka是個不需要寫程式也可以輕鬆上手的好方法。
這一篇是我在2019年研習班中講授的課程投影片。這篇的做法改進了我之前製作的「巨量資料探勘與統計應用」課程內容,不僅更加掌握Weka的功能與參數,也直接採用ODS開放文件格式試算表作為練習資料的格式。如果你對資料探勘有興趣的話,不妨也試著一起玩玩看吧。
(more...)10月 02, 2019 0 Comments KALS Presentation
大家晚安,這裡是平安渡過颱風、但是學業上不太平安的布丁。
在2018年的一個工作坊中,我跟實驗室的同事們用英文做了閱讀知識合作標註學習系統KALS (Knowledge-based Annotation Learning System)以及問題導向學習環境PBL (Problem-based Learning)的介紹投影片。這篇文章是將這兩個投影片記錄一下,供有需要的人取用。
(more...)10月 29, 2017 0 Comments Course Presentation Series/NOU Word Software/Word
這是Word專業文件排版課程的投影片「Word長文件中的列印、分隔設定與範本」。本單元的主題為列印與相關版面的配置,特別是分隔設定跟頁首頁尾,最後還介紹了範本的使用。本單元的投影片還搭配2個相關教材,供同學一邊學習一邊練習。
(more...)10月 29, 2017 0 Comments Course Presentation Series/NOU Word Software/Word
這是Word專業文件排版課程的投影片「Word長文件的樣式、目錄與封面」。本單元的主題繼續講述長文件的各種技巧,包括樣式、目錄、佈景主題與封面頁。本單元的投影片還搭配2個相關教材,供同學一邊學習一邊練習。
(more...)10月 29, 2017 0 Comments Course Presentation Series/NOU Word Software/Word
這是Word專業文件排版課程的投影片「Word長文件中的SmartArt與表格」。本單元的主題著重在長文件,以及長文件時常會用到Smart Art跟表格。最後還補充注音字型的使用。本單元的投影片還搭配5個相關教材,供同學一邊學習一邊練習。
(more...)10月 29, 2017 0 Comments Course Presentation Series/NOU Word Software/Word
這是Word專業文件排版課程的投影片「Word的快取圖案與Smart Art」。本單元的主題包含了兩個大部分。第一個部分是用快取圖案來畫聖誕節賀卡,第二個部分則是學習用快取圖案跟Smart Art來畫組織圖。本單元的投影片還搭配4個相關教材,供同學一邊學習一邊練習。
(more...)10月 28, 2017 0 Comments Course Presentation Series/NOU Word Software/Word
這是Word專業文件排版課程的投影片「Word的框線、亞洲文字配置與圖片」。本單元的主題包含了框線與網底、亞洲文字配置、圖片與文繞圖、以及螢幕畫面擷取的功能。本單元的投影片還搭配10個相關教材,供同學一邊學習一邊練習。
(more...)10月 28, 2017 0 Comments Course Presentation Series/NOU Word Software/Word
這是Word專業文件排版課程的投影片「Word的檢視與格式」。本單元的主題包含了Word的檢視工具與視窗操作、文字格式、段落格式、編號與項目符號清單、框線與網底、亞洲文字配置。本單元延續上次的「Word的操作介面與基本編輯」,講述更多編輯Word文件的基本功能。本單元的投影片還搭配12個相關教材,供同學一邊學習一邊練習。
(more...)10月 27, 2017 0 Comments Course Presentation Series/NOU Word Software/Word
這是Word專業文件排版課程的投影片「Word的操作介面與基本編輯 」。本單元是學習Microsoft Word 2013的第一堂課,主要是針對Word的介面做個簡介,教同學怎麼用Word檢視文件,最後還有一些簡單的編輯操作介紹。本單元的投影片還搭配1份教材與1份小試身手測驗,供同學一邊學習一邊練習。
(more...)10月 25, 2017 0 Comments Presentation Server/Apache Solr Work/Widget
這是我在2015年政大圖檔所網路資訊檢索研究課程中所講的「Apache Solr全文搜尋引擎」。這份投影片教大家如何從無到有建立搜尋引擎。跟單純的關聯式資料庫(RMDB)不同,全文搜尋引擎是以XML檔案設定文件的欄位,並可提供指定欄位、層面等簡單的搜尋查詢條件,還可以進一步全文搜尋引擎特有的斷詞器、停用字、同義字、大小寫、詞幹切截等過濾器與檢索權重排序的設定。這份投影片附帶一份完整的Apache Solr環境,主要是為了Windows環境佈置。其中有個步驟需要將匯入資料的試算表檔案轉換成適合Solr的格式,我發展了一個試算表轉換成Solr XML格式小工具,以便我們匯入資料到Solr中。
(more...)10月 21, 2017 15 Comments Data Mining Presentation Software/Weka
能夠自動決定分群數量的演算法,除了層疊K平均分群法之外,Weka裡面還有另一個分群法也能做到類似的目的,那就是X-means。X-means為每個分群結果計算貝氏資訊準則BIC Score,以此決定是否要將資料分成更多群。跟層疊K平均分群法一樣,它可以讓使用者選定分群數量的可能範圍。然而實際使用幾次後,我發現X-means的分群數量偏少,而且原理也不如層疊K平均分群法使用的Calinski-Harabasz指標(CH指標)容易解釋。因此比起X-means,我個人還是比較推薦使用層疊K平均分群法。本投影片的內容參考了X-means原論文跟[x-means] 1.x-means简介。
(more...)10月 20, 2017 0 Comments Presentation Software/SPSS Work/Widget
這是繼行為分析之時間序列分析之後,對於分析超過二序列之上更長序列的分析方法對數線性模式(Log-linear model)的介紹。一開始是基於Bakeman與Quera在書中介紹的對數線性模式序列分析(log-linear sequential analysis),為了分析方便,我後面介紹的是使用SPSS實作的對數線性模式分析。但是我對於這個分析方法抱有高度疑惑,各書本對於對數線性模式分析方法不盡相同,而報表解讀也有許多漏洞。這一份對數線性模式分析的方法僅供記錄,並不建議真的這樣使用。
(more...)10月 20, 2017 0 Comments Presentation
這是伴隨在行為分析之時間序列分析的報告中,延伸細談時間序列分析的部分。投影片的內容是參考了林惠玲、陳正倉老師所著的「應用統計學」以及其他時間序列分析的相關書籍綜合而成。大部分時間序列分析的介紹仍是環繞著ARIMA技術的模型,後來我用Weka實作的多變項時間序列預測則採用了機器學習的另類做法。
(more...)10月 19, 2017 0 Comments Presentation Research Research/Sequential Analysis
這是閱讀Bakeman兩本書中行為序列分析與時間相關的兩個章節「9. Analyzing time sequences」跟「11. Time-window and log-linear sequential analysis」的簡報內容。Bakeman將事件編碼的類別資料轉換成比率數字的連續變項,再結合了時間序列分析(Time-series analysis)技術進行處理。在另外一本書則是介紹高階列聯表分析技術線性對數模型(Log-Linear Analysis),可以分析超越雙事件到N事件的序列檢定。
(more...)10月 17, 2017 1 Comments Presentation Software/GoogleDoc Software/Weka Work/Widget
這篇「超簡單!文本機器分類入門」是我在2017年3月於政大圖檔所資料探勘課程中的演講內容,之後演化成後來我在巨量資料探勘與統計應用課程中「非結構化資料分析:文本分類」單元的內容。如果想要看比較完整的文本分類介紹,請看「非結構化資料分析:文本分類」這篇。不過想要看獨立的文本分類課程的話,那也可以從這篇開始看起喔。
(more...)這是巨量資料探勘與統計應用課程的投影片「非結構化資料分析:文本分類」。本單元是屬於系列課程中的「資料預測級」中最後一個單元。處理資料類型是為非結構化的資料進行分類,也就是使用類別資料。這邊使用了Jieba斷詞來作文本語義分析,然後使用樸素貝氏多項式文本分類器(NaiveBayesMultinomialText)來為文本進行分類,最後還用特徵篩選(Select attributes)找出關鍵字。到底圖書館員分類編目的核心技能會不會被這篇所講的自動化文本分類機器所取代呢?看完這個單元你就可以知道結果了。本單元使用了二個我自製的工具來搭配Weka實作文本分類,單元內包含了四份實作學習單跟一份測驗,供同學邊看邊練習。這個單元包含了四個實作學習單跟一份測驗,供同學邊看邊練習。
(more...)10月 16, 2017 0 Comments Presentation Research
我在上週受邀去ASIS&T臺北分會所舉辦的「行動裝置資料與使用者研究工作坊」的「學生參與國際活動之經驗分享」分享參與國際會議的經驗。現在學術圈大多鼓勵學者參加Call for Papers類型,以全文(full paper)發表並口頭報告(oral),因此我的重點也放在如何參與這種國際研討會上。我就參與IMLF 2014跟IFLA WLIC 2015兩場的經驗,將整個流程歸納成 1. 投稿、2. 行程安排、3. 參與會議、4. 結案報告 的四大階段,而投影片內更加著重說明投稿時選擇研討會、投稿計劃書、摘要與全文、準備投影片和講稿的做法。在上週工作坊中因時間不夠,沒有機會跟大家好好說明,我還是在這裡放上投影片,希望可以嘉惠有意參與國際研討會的莘莘學子。
(more...)這是巨量資料探勘與統計應用課程的投影片「分類與預測:貝氏網路」。本單元是屬於系列課程中「資料預測級」的第一個單元,處理資料類型是從「類別」來預測「類別」類型的資料。貝式網路(BayesNet)是一種能夠表示變項間因果關係的機率模型,原理簡單、計算速度快,不僅可以用來預測結果,還能推理可能的原因。貝式網路是早期專家決策支持系統最常使用的模型,例如可以用來協助醫生找尋病因。本單元先用簡單「吸菸可能造成生病」的例子來說明貝式網路的運作方式,再來使用Weka來建立貝式網路結構、準備訓練集跟測試集、顯示貝式網路模型以及預測結果。本單元使用了四個我自製的工具來搭配Weka實作貝式網路預測,單元內包含了三個實作學習單跟一份測驗,供同學邊看邊練習。
(more...)這是巨量資料探勘與統計應用課程的投影片「資料預測級導論: 分類的處理流程」。本單元是屬於系列課程中的「資料預測級」的導論,這份投影片是為了銜接前面的「資料檢定級」與後面的概念,資料預測級的概念上比較接近現在「巨量資料(大數據)」或「人工智慧」的範疇,都是為了獲得一個「答案」,特別適用於「類別」類型的答案,這種做法稱之為「分類」。分類的步驟大致上分成 1. 準備資料、2. 建立模型、3. 評估模型、4. 預測未知、5. 修正模型。介紹最後還附上了一個以貝式網路建立的模型,可以讓同學先體驗用有沒有吸菸預測是否可能生病的機率。
(more...)
Comments