:::

如何在Weka中顯示中文:調整檔案編碼為UTF8 / How to Process Chinese Data in Weka: Set fileEncoding to utf-8

, , ,

image

在Windows中使用Weka來處理非英文語系的資料時會變成亂碼,這是因為它的參數設定預設為Cp1252 (拉丁字母字元編碼)。只要在Weka設定檔RunWeka.ini中修改fileEncoding為utf-8,就能讓Weka順利顯示中文。

一秒變灰階!Windows圖片轉灰階工具 / Color Image to Grayscale Converter

, , , ,

image

我在掃描的文件會有灰階跟彩色混雜的情況。用彩色模式掃描只有黑白的圖片,事後整理時會佔很大的空間。所以我就繼續「布丁式圖片工具箱」的專案,做了一個「布丁式圖片灰階工具」出來用了。這個「布丁式圖片灰階工具」主要是用AutoIT操作ImageMagick圖片工具來處理圖片,你也可以調整config.ini的設定來更換ImageMagick的指令。

試作歷程序列資料的動態生成模型:結合多層次感知機與增強學習的應用 / Developing a Dynamic Path Generator base on Users’ Activity Logs: a MLP and Reinforcement Learning Approach

, ,

image

繼前一篇談完歷程資料的分析方式之後,本篇則是從機器學習的角度切入,藉由分析不同背景使用者的操作歷程序列資料,並將對歷程結果的評價作為輸入資料,以此訓練一套懂得不同特質使用者會如何操作的多層次感知機(MLP)預測模型。接著再以任意一位使用者為背景,用此模型來生成一套評價較好的操作序列路徑。為了避免模形產生的路徑陷入無限迴圈,本篇以增強學習(Reinforcement learning)來懲罰會走到迴圈的序列路徑。

結果最後產生的序列路徑過度受到增強學習的影響,使得使用者的背景因素與歷程評價的影響變得微乎其微。這篇是為了記錄這一連串開發的過程、思維,以及未來的改進方向。這整套系統皆以JavaScript網頁開發,全部原始碼與資料都放在GitHub上,線上展示網址為: https://pulipulichen.github.io/dynamic-generative-path/

談歷程資料分析:從摘要統計到個別序列 / Analyzing Activity Logs: From Summary Statistics to Individual Sequence

, , , , , ,

image

最近我試著應用機器學習到歷程序列資料的分析上,想說在這裡記錄一下進度與想法。不過在講歷程序列資料的分析之前,我想有必要先跟大家回顧一下所謂的歷程資料(activity logs)中的摘要統計與個別序列的差別,以及分析歷程統計資料和歷程序列資料的可能做法,這樣才能說明為什麼我要將機器學習應用在歷程序列資料分析上。這些方法跨了相當多領域,有些技術解釋與名詞選擇不甚嚴謹,望各位先進不吝指教。

你還在用WinRAR壓縮嗎?是該改用ZIP格式來壓縮了 / The Better File Compression Format: ZIP

, ,

image

在華文圈,很多人都使用WinRAR來壓縮檔案,電腦裡面也會裝WinRAR軟體。不過,比起RAR格式,我更推薦大家使用都是ZIP格式壓縮。這篇來談談為什麼這樣說的理由。

Weka試跑文本評分 / Text Rating Test With Weka

,

image

最近我在準備教授用Weka作文本分類的時候,就順帶的一直想試試理論上可以作、但一直沒資料的「文本評分」功能。文本分類主要的分類目標(class)是「類別資料」,而文本評分的分類目標就是「連續資料」,也就是分數。於是我就順手把「Reuters-21578 Text Categorization Collection」的新聞分類轉換成數字的評分,並整合StringToWordVector篩選器跟SMOreg分類器以迴歸的方式計算評分。其中StringToWordVector需要經過調整才能讓分類器順利運作,這邊我記錄一下大致上的做法。

台電科技Teclast Tbook 16 Power如何修復Wifi跟MicroSD讀卡機問題:更新系統韌體 / Update Firmware to Fix Teclast Tbook 16 Power’s Wifi and MicroSD Card Reader Problems

, ,

image

最近買來了中國大陸公司台電科技(Teclast)的仿Micosoft Surface的二合一平板電腦:Tbook 16 Power,買來之後就發現常常有Wifi莫名其妙斷線、MicroSD讀卡機消失等問題。今天研究了一下台電論壇的內容,有人說重設BIOS但沒效,也有人說升級最新驅動2017 05 22後能完美解決,不過我選擇更新了Windows 10的系統韌體,這兩個問題就順利解決了。

不深度學習也不用寫程式的圖片辨識:用Weka實作MNIST手寫數字辨識 / MNIST digits Classification with Weka

,

image

深度學習CNN的熱門讓人再度對「圖片辨識」這塊領域投入許多注意。不過先不論你是很懂數學公式喜歡計算卷積的朋友,還是不求甚解只會call套件來用的朋友,大部分的朋友都必須經過安裝Python環境、tensorflow或keras等套件、一步一步遵照範例程式碼來執行CNN的這段辛苦過程。不過,在這之中應該也有不少朋友,一旦遇到輸入程式碼就十分痛苦到無法繼續作下去,對吧?別擔心,如果只是要作預測圖片、辨識圖片的話,其實來自紐西蘭的Weka也可以做到,還不用寫任何程式喔!

那麼本篇繼利用Image Filter抽取圖片特徵分類初音彩色圖片之後,接下來這篇就要來挑戰現在CNN主要使用的資料集:MNIST手寫數字辨識問題囉。

你也懂初音?Weka辨識彩色圖片的分類與預測 / Colorful Images Classification with Weka

, ,

image

在「從圖片抽取量化特徵:Weka的ImageFilter」這篇的介紹之後,我們知道怎麼利用Weka的Image Filter從圖片中抽取量化特徵,並進一步用於圖片分類上。本篇我們就以Terrence所撰寫的「用tflearn來做深度學習辨識初音」中分辨初音的例子,用Weka來實作看看吧。

從圖片抽取量化特徵:Weka的ImageFilter / Extract Features from an Image File with Weka’s ImageFilter

, ,

image

在「不寫程式也能預測未知!用Weka分類模型來預測未知案例」這篇介紹了如何用Weka來進行預測,不過基本上像是Weka這樣的資料探勘工具處理的都是經過量化的數值或分類資料,如果今天遇到的是非結構的資料,像是圖片的話,我們要怎麼處理呢?這就要藉助Weka的「Image Filter」套件,來從非結構化的圖片檔案中抽取量化的特徵資料囉。