:::

如何在Weka中顯示中文:調整檔案編碼為UTF8 / How to Process Chinese Data in Weka: Set fileEncoding to utf-8

如何在Weka中顯示中文:調整檔案編碼為UTF8 / How to Process Chinese Data in Weka: Set fileEncoding to utf-8

image

在Windows中使用Weka來處理非英文語系的資料時會變成亂碼,這是因為它的參數設定預設為Cp1252 (拉丁字母字元編碼)。只要在Weka設定檔RunWeka.ini中修改fileEncoding為utf-8,就能讓Weka順利顯示中文。

(more...)

一秒變灰階!Windows圖片轉灰階工具 / Color Image to Grayscale Converter

一秒變灰階!Windows圖片轉灰階工具 / Color Image to Grayscale Converter

image

我在掃描的文件會有灰階跟彩色混雜的情況。用彩色模式掃描只有黑白的圖片,事後整理時會佔很大的空間。所以我就繼續「布丁式圖片工具箱」的專案,做了一個「布丁式圖片灰階工具」出來用了。這個「布丁式圖片灰階工具」主要是用AutoIT操作ImageMagick圖片工具來處理圖片,你也可以調整config.ini的設定來更換ImageMagick的指令。

(more...)

試作歷程序列資料的動態生成模型:結合多層次感知機與增強學習的應用 / Developing a Dynamic Path Generator base on Users’ Activity Logs: a MLP and Reinforcement Learning Approach

試作歷程序列資料的動態生成模型:結合多層次感知機與增強學習的應用 / Developing a Dynamic Path Generator base on Users’ Activity Logs: a MLP and Reinforcement Learning Approach

image

繼前一篇談完歷程資料的分析方式之後,本篇則是從機器學習的角度切入,藉由分析不同背景使用者的操作歷程序列資料,並將對歷程結果的評價作為輸入資料,以此訓練一套懂得不同特質使用者會如何操作的多層次感知機(MLP)預測模型。接著再以任意一位使用者為背景,用此模型來生成一套評價較好的操作序列路徑。為了避免模形產生的路徑陷入無限迴圈,本篇以增強學習(Reinforcement learning)來懲罰會走到迴圈的序列路徑。

結果最後產生的序列路徑過度受到增強學習的影響,使得使用者的背景因素與歷程評價的影響變得微乎其微。這篇是為了記錄這一連串開發的過程、思維,以及未來的改進方向。這整套系統皆以JavaScript網頁開發,全部原始碼與資料都放在GitHub上,線上展示網址為: https://pulipulichen.github.io/dynamic-generative-path/

(more...)

談歷程資料分析:從摘要統計到個別序列 / Analyzing Activity Logs: From Summary Statistics to Individual Sequence

談歷程資料分析:從摘要統計到個別序列 / Analyzing Activity Logs: From Summary Statistics to Individual Sequence

image

最近我試著應用機器學習到歷程序列資料的分析上,想說在這裡記錄一下進度與想法。不過在講歷程序列資料的分析之前,我想有必要先跟大家回顧一下所謂的歷程資料(activity logs)中的摘要統計與個別序列的差別,以及分析歷程統計資料和歷程序列資料的可能做法,這樣才能說明為什麼我要將機器學習應用在歷程序列資料分析上。這些方法跨了相當多領域,有些技術解釋與名詞選擇不甚嚴謹,望各位先進不吝指教。

(more...)

你還在用WinRAR壓縮嗎?是該改用ZIP格式來壓縮了 / The Better File Compression Format: ZIP

你還在用WinRAR壓縮嗎?是該改用ZIP格式來壓縮了 / The Better File Compression Format: ZIP

image

在華文圈,很多人都使用WinRAR來壓縮檔案,電腦裡面也會裝WinRAR軟體。不過,比起RAR格式,我更推薦大家使用都是ZIP格式壓縮。這篇來談談為什麼這樣說的理由。

(more...)

Weka試跑文本評分 / Text Rating Test With Weka

布丁布丁吃布丁

Weka試跑文本評分 / Text Rating Test With Weka

image

最近我在準備教授用Weka作文本分類的時候,就順帶的一直想試試理論上可以作、但一直沒資料的「文本評分」功能。文本分類主要的分類目標(class)是「類別資料」,而文本評分的分類目標就是「連續資料」,也就是分數。於是我就順手把「Reuters-21578 Text Categorization Collection」的新聞分類轉換成數字的評分,並整合StringToWordVector篩選器跟SMOreg分類器以迴歸的方式計算評分。其中StringToWordVector需要經過調整才能讓分類器順利運作,這邊我記錄一下大致上的做法。

(more...)

台電科技Teclast Tbook 16 Power如何修復Wifi跟MicroSD讀卡機問題:更新系統韌體 / Update Firmware to Fix Teclast Tbook 16 Power’s Wifi and MicroSD Card Reader Problems

台電科技Teclast Tbook 16 Power如何修復Wifi跟MicroSD讀卡機問題:更新系統韌體 / Update Firmware to Fix Teclast Tbook 16 Power’s Wifi and MicroSD Card Reader Problems

image

最近買來了中國大陸公司台電科技(Teclast)的仿Micosoft Surface的二合一平板電腦:Tbook 16 Power,買來之後就發現常常有Wifi莫名其妙斷線、MicroSD讀卡機消失等問題。今天研究了一下台電論壇的內容,有人說重設BIOS但沒效,也有人說升級最新驅動2017 05 22後能完美解決,不過我選擇更新了Windows 10的系統韌體,這兩個問題就順利解決了。

(more...)