:::

AI解籤不用1秒,廟公要失業了嗎?Weka的中文自動評分:預測詩籤的等第 / Automatic Chinese Text Scoring in Weka: Rating Fortune Slips

, ,

image

人工智慧要為非結構性的文本型資料評分,要評到精準是很難,但如果只是簡單地給個評分的話,其實是非常簡單的事情,不需要寫任何程式碼。繼我之前寫的「Weka試跑文本評分」,這次我一樣直接使用Weka來為「雷雨詩籤百首」中的籤文與等第建模,做到Weka看到「一舟行貨好招邀 積少成多自富饒 常把他人比自己 管須日後勝今朝」就知道是「上吉」。此外,還能透過特徵選取(select attributes)功能來篩選出影響等第的籤文關鍵字喔。

從PHP的Fat-Free Framework框架來看用Node.js的Express框架開發網站的心得 / Fat-Free Framework in PHP vs. Express in Node.js: Pros and Cons of Node.js

, ,

image

之前我跟學弟嘗試使用Node.js的Express框架來開發網站。本想著前端跟後端都可以統一使用JavaScript,但實際嘗試之後才發現Express框架問題頗多。這兩天為了把Zotero的資料庫寫成網站,我回頭使用PHP的Fat-Free Framework框架來開發,順手程度讓我感動到痛哭流涕,不禁想要寫一篇來整理一下Node.js的各種問題。這篇就閒聊一下吧。

社會網絡分析之隨機圖模型 / Social Network Analysis: Random Graph Models

, ,

image

這是介紹「PAJEK 蜘蛛: 社會網絡分析技術」這本書中的第13章「隨機圖模型」的投影片。這本書使用社會網絡分析工具「pajek 蜘蛛」來分析研究者所蒐集的實測社群本身可能符合或不符合那些隨機圖模型(random graph models)。書中介紹的隨機圖模型包括伯努利隨機圖模型(Bernoulli random graph model)、條件統一隨機圖模型 (Conditional uniform random graph models)、小世界模型 (small world model)與優先連接模型 (scale free model),它們有各自的假設背景、建構網絡的隨機過程以及展現出來結構特徵。本書以蒙特卡洛模擬(Monte Carlo simulation)來建構各個隨機圖模型的信賴區間,藉以判斷實測網路與這些隨機圖模型的異同。

感謝大家支持,捐款功能上線囉! / New Feature: Donation

image

你覺得「布丁布丁吃什麼?」的文章對你有幫助嗎?現在本Blog使用綠界科技的實況主收款功能加入了贊助捐款的功能囉!您可以自由決定捐款金額,並可接受信用卡、網路ATM、ATM櫃員機、便利商店代碼付費等方式付款喔!

藍牙耳機一直斷線?解決Android藍牙耳機的斷線問題 / How to solve Bluetooth randomly Disconnecting Issue on Android Smartphone

, , ,

image

因為我原本的手機電池膨脹了,所以我最近買了另一隻沒有耳機孔的Android智慧型手機HTC U11,想說搭配之前買的藍牙耳機SAMZU神族就可以解決這個問題,不過在藍牙連線狀態下連上行動網路時,藍牙耳機就會斷線。而行動網路沒連線時,藍牙耳機又會恢復連線。

後來我在網路上找到了katieelva的建議,在藍牙裝置配對的時候,用於功能取消勾選「聯絡人分享」,之後藍牙耳機就再也沒有發生異常斷線的問題了。這篇將這個方法整理一下,供大家參考。

社會網絡分析之塊模型 / Social Network Analysis: Block Modeling

, ,

image

這是介紹「PAJEK 蜘蛛: 社會網絡分析技術」這本書中第12章「塊模型」的投影片。這本書使用社會網絡分析工具「pajek 蜘蛛」來找出社群中人與人之間互動的共同模式,稱之為「塊」(block)。在塊模型中是以鄰接矩陣作為分析工具,而本章則介紹了塊模型的基本概念,全型塊(complete)、無型塊(null)、正則塊(regular)等塊的類型,並介紹核心──週邊架構(core-periphery structure)、與等級架構(hierarchical structure)等常見的塊模型。值得注意的是,蜘蛛的塊模型處理方式跟UCINet中塊模型的處理方式不同,我個人覺得蜘蛛的塊模型分析比較讓人容易理解。

「布丁布丁吃什麼?」開站以來的網頁瀏覽記錄突破四百萬 / Over 4 Million Visits Record!

image

上週在看統計記錄的時候,我還在想應該還有一段時間才會突破四百萬吧。不過今天打開一看,網頁瀏覽記錄居然已經是401萬了。這篇記錄一下上次看到三百萬瀏覽次數的時間,以及我通常會看那些網頁瀏覽記錄資料,最後跟大家聊聊本blog的一些熱門文章。

資料聚類:分群 / Clustering

, , ,

image

這是巨量資料探勘與統計應用課程的投影片「資料聚類:分群」。本單元是屬於系列課程中的「資料敘述級」,處理資料類型主要是「連續」類型資料,不過其實Weka的K平均法也能處理「類別」資料就是了。

本單元的「分群技術」屬於「資料探勘」(data mining)領域的其中一個主題,而此技術是繼前面統計圖表、資料的中心與離度之上,可用於描述多維度、超大量複雜資料的有效方法。如果你拿到一份複雜的資料,不知道該怎麼解析它的時候,不妨先丟進分群跑看看資料會有什麼特徵吧。

我為了這個單元開發了「Weka分群結果分析器」,可以搭配Weka中K平均法分群一起使用。這個單元包含了四個實作學習單,供同學邊看邊練習。

在Linux中用指令新增排程 / How to Create a Cron Job via Shell Script

, , ,

image

最近我想要為Zentyal加上排程備份的時候,發現使用Shell Script指令修改 /etc/crontab 檔案並不會實際上觸發排程(儘管如果用vim /etc/crontab 是可以觸發排程的)。後來我參考TheBonsai的建議,用crontab指令來新增排程,這樣就可以成功。

資料的中心與離度 / Measures of Center and Spread

, , , ,

image

這是巨量資料探勘與統計應用課程的投影片「資料的中心與離度」。本單元是屬於系列課程中的「資料敘述級」,處理資料類型主要是「連續」類,但也其中的眾數也可以描述「類別」類型。

這個單元講述的是各位同學國中就學過的均值跟離度的算法,包括平均數、中位數、眾數、最大值、最小值、四分位數、變異數與標準差。這次我們的重點不在於計算,而是要瞭解均值跟離度如何有效地用於描述資料。跟以前大多著重在公式跟按計算機不同,現在我們就用Google試算表的函式計算均值跟離度即可。本單元包括了五個實作學習單,供同學邊看邊練習。