:::
顯示具有 Programming/Python 標籤的文章。 顯示所有文章

TextRank簡介 / Introduction to TextRank

TextRank簡介 / Introduction to TextRank

3-cover-TextRank_Introduction_to_TextRank.png

哈囉,大家最近在吃什麼呢?這裡是思考傳統摘要與自動化摘要之間有何異同的布丁。這篇是我之前介紹自動文字摘要演算法TextRank的10分鐘簡短投影片,並附上實作可以使用的Python腳本,提供給有需要的朋友使用。

(more...)

2020年臺灣工程師喜愛的程式語言與資料庫竟然跟全球流行不一樣 / The Popular Script Language and Database Technology in Taiwan in 2020

2020年臺灣工程師喜愛的程式語言與資料庫竟然跟全球流行不一樣 / The Popular Script Language and Database Technology in Taiwan in 2020

23-2020_ENG.png

Pui Pui大家午安啊,我是在寒冷又溼漉漉的地方裡,期望下雨降在集水區的布丁。在這個寒冷的天氣裡,今天就跟大家聊聊臺灣工程師最受歡迎的程式語言跟資料庫技術吧!

全世界工程師最後的救星Stack Overflow在2020年二月發佈了2020年開發者調查結果。統計5萬多位工程師最喜歡的程式語言中,JavaScript以67.7%名列第一。年初時Easy Website的站長網站哥以這份開發者調查資料為基礎,將臺灣開發者所流行的程式語言與資料庫繪製成統計圖表,結果竟然跟世界潮流不太一樣。至於差異在哪裡,就讓我們看下去吧。

(more...)

簡單易用的中英文斷詞和詞性標註:Python-Jieba / Word Segmentation and Part of Speech Anlysis: Python-Jieba

簡單易用的中英文斷詞和詞性標註:Python-Jieba / Word Segmentation and Part of Speech Anlysis: Python-Jieba

要對非結構化的文字資料進行分析,第一件事情是對文字資料抽取結構化的量化數值特徵。除了用「文字探勘分析器」簡單分析字數、句數之外,最常見的分析方式就是斷詞和詞性分析,例如線上中文斷詞工具:Jieba-JS。但Jieba-JS並不能發揮Jieba斷詞器的全部功能,所以我以Python撰寫了簡單易用的斷詞和詞性分析工具Python-Jieba,讓大家不用撰寫程式碼,只要簡單的配置,就能進行中文斷詞和詞性分析,還能夠同時分析中英混雜文本中英文的詞性。

Python-Jieba不只可搭配「非結構化資料分析:文本分類」或「Weka的中文自動評分」等機器學習來使用,更可以用在質性研究的內容分析、文本分析或敘說分析上,先用Python-Jieba找出特定詞性的文本內容來分析。

(more...)

直接執行Python腳本:Python Caller / Running a Python Script Directly in Windows: Python Caller

直接執行Python腳本:Python Caller / Running a Python Script Directly in Windows: Python Caller

image

繼前一篇的RScript Caller之後,這次要來介紹的是直接執行Python的Python Caller。這隻程式的主要目的是提供讓Python腳本檔案(副檔名為.py)直接關聯到Python-Caller.exe,這樣就能在檔案總管中點兩下直接執行,然後在執行完畢後暫停,讓開發者可以看看執行結果。以下就是Python Caller的下載、設定與使用介紹。因為做法跟RScript Caller蠻像的,所以兩篇內容會看起來很像就是了。

(more...)

循序樣式探勘:以Python的PrefixSpan實作 / Implement Sequential Pattern Mining with PrefixSpan in Python

布丁布丁吃布丁

循序樣式探勘:以Python的PrefixSpan實作 / Implement Sequential Pattern Mining with PrefixSpan in Python

image

我之前用R的arulesSequences來做循序樣式探勘,但是在輸入的資料量過大的時候,arulesSequences沒辦法順利運作。這個問題就是循序樣式探勘AprioriAll需要產生候選項目的後遺症。所以我另外找尋了不需要產生候選項目的循序樣式探勘演算法,最後找到的就是以Python實作的PrefixSpan。我參考chuanconggao發佈在GitHub的PrefixSpan-py專案,調整它輸入資料跟輸出結果的方式,把它整理成更容易在Windows環境下使用。所有程式碼都公開在GitHub的保存庫「PrefixSpan-py」上,歡迎有需要做循序樣式探勘的朋友來使用。

(more...)