TextRank簡介 / Introduction to TextRank
TextRank簡介 / Introduction to TextRank
哈囉,大家最近在吃什麼呢?這裡是思考傳統摘要與自動化摘要之間有何異同的布丁。這篇是我之前介紹自動文字摘要演算法TextRank的10分鐘簡短投影片,並附上實作可以使用的Python腳本,提供給有需要的朋友使用。
(more...)哈囉,大家最近在吃什麼呢?這裡是思考傳統摘要與自動化摘要之間有何異同的布丁。這篇是我之前介紹自動文字摘要演算法TextRank的10分鐘簡短投影片,並附上實作可以使用的Python腳本,提供給有需要的朋友使用。
(more...)Pui Pui大家午安啊,我是在寒冷又溼漉漉的地方裡,期望下雨降在集水區的布丁。在這個寒冷的天氣裡,今天就跟大家聊聊臺灣工程師最受歡迎的程式語言跟資料庫技術吧!
全世界工程師最後的救星Stack Overflow在2020年二月發佈了2020年開發者調查結果。統計5萬多位工程師最喜歡的程式語言中,JavaScript以67.7%名列第一。年初時Easy Website的站長網站哥以這份開發者調查資料為基礎,將臺灣開發者所流行的程式語言與資料庫繪製成統計圖表,結果竟然跟世界潮流不太一樣。至於差異在哪裡,就讓我們看下去吧。
(more...)1月 18, 2019 2 Comments Data Mining Programming/Python Research/Text Mining
要對非結構化的文字資料進行分析,第一件事情是對文字資料抽取結構化的量化數值特徵。除了用「文字探勘分析器」簡單分析字數、句數之外,最常見的分析方式就是斷詞和詞性分析,例如線上中文斷詞工具:Jieba-JS。但Jieba-JS並不能發揮Jieba斷詞器的全部功能,所以我以Python撰寫了簡單易用的斷詞和詞性分析工具Python-Jieba,讓大家不用撰寫程式碼,只要簡單的配置,就能進行中文斷詞和詞性分析,還能夠同時分析中英混雜文本中英文的詞性。
Python-Jieba不只可搭配「非結構化資料分析:文本分類」或「Weka的中文自動評分」等機器學習來使用,更可以用在質性研究的內容分析、文本分析或敘說分析上,先用Python-Jieba找出特定詞性的文本內容來分析。
(more...)2月 11, 2018 0 Comments AutoIt Programming/AutoIt Programming/Python
繼前一篇的RScript Caller之後,這次要來介紹的是直接執行Python的Python Caller。這隻程式的主要目的是提供讓Python腳本檔案(副檔名為.py)直接關聯到Python-Caller.exe,這樣就能在檔案總管中點兩下直接執行,然後在執行完畢後暫停,讓開發者可以看看執行結果。以下就是Python Caller的下載、設定與使用介紹。因為做法跟RScript Caller蠻像的,所以兩篇內容會看起來很像就是了。
(more...)8月 23, 2017 15 Comments Data Mining Programming/Python
我之前用R的arulesSequences來做循序樣式探勘,但是在輸入的資料量過大的時候,arulesSequences沒辦法順利運作。這個問題就是循序樣式探勘AprioriAll需要產生候選項目的後遺症。所以我另外找尋了不需要產生候選項目的循序樣式探勘演算法,最後找到的就是以Python實作的PrefixSpan。我參考chuanconggao發佈在GitHub的PrefixSpan-py專案,調整它輸入資料跟輸出結果的方式,把它整理成更容易在Windows環境下使用。所有程式碼都公開在GitHub的保存庫「PrefixSpan-py」上,歡迎有需要做循序樣式探勘的朋友來使用。
(more...)
Comments