標註重要程度計算與建議
這是2010年4月22日的meeting報告,有兩份投影片。繼寫書工作結束之後,我就回到了畢業論文的工作上(工作是作不完的,嗯)。上一篇談到我需要一種計算閱讀標註重要程度的方式,而這種方式就是結合專家經驗的「模糊理論」。
雖然在資料探勘課程當中有稍微介紹一下模糊理論,但是沒實作也沒講清楚的情況下,我還是得自己去翻書、翻論文來看看要怎麼作。上一次的報告中老師建議我改用另一種來計算老師稱之為「模糊綜合評判」,但我稍微看了一下文獻,這個名字其實汎用於各種模糊理論計算方式的感覺?),於是這次我就用老師說的方式來試著做出標註重要程度的計算過程。不過在摸索的時候,因為又隔了一段時間再摸模糊理論,有些細節都忘了差不多,摸索過程錯誤連連,meeting時還被老師指正,有夠尷尬XD
標註的重要程度計算方法
這份論文中,標註的重要程度考量六個語言變數:被標註的範圍長度(以字為單位,簡稱標註長度)、被標註範圍包含的詞性(簡稱標註詞性)、被標註的文章在段落中的位置(簡稱標註位置)、標註共識次數、標註類型、其他使用者對於此標註的評分。然後再經過模糊子集合歸屬函數計算出模糊關係矩陣,最後利用語言變數權重向量來算出其重要程度。其中,歸屬函數與語言變數權重向量會利用模糊統計法,綜合專家、教師、使用者代言人的意見來制訂,以求研究的客觀性。
重要標註的應用—提示與推薦標註
能夠計算重要程度之後,接下來就能將之回饋給使用者。基本概念是對使用者下的不太重要的標註給予建議,並推薦比較重要的標註給使用者。在「低」、「中」、「高」重要程度的模糊子集合中剛好可以區分成「低—中」、「中—高」兩個區塊,而這兩個區塊就是「需要給予建議的標註」與「可以推薦給別人的標註」的區隔。接著我設定了一些推薦標註的搜尋範圍與條件,並設定三種閱讀技巧的提示。這些提示是來自於利用模糊綜合評判分析使用者標註的途中,挑出此標註在標註長度、標註位置與標註詞性中的較差的項目,並給予具體的建議。
雖然我之前已經開發了一定的系統,但因為一直覺得核心的理論、實驗的方式、分析的方法沒有構思周全,會導致之後系統設計架構不良,所以這次就從規劃開始著手,把大部分的細節都考量進去、並經過老師確認之後,再來著手開發系統。
在昨天的meeting中,上述這些方法都已經經過老師的確認,應該是可以繼續做下去。不過在構思的過程中,其實我一直覺得這些方法有點膚淺。技術上是有一定挑戰性、理論上也應該算是嚴謹且合理,但總覺得距離真正的專家評估還是有一段距離。
在考量標註重要程度計算的方式上,是有許多種方法。除了上述利用的六個語言變數之外,也可以把使用者的社會關係考量進去、成為協同過濾的機制。儘管要做一定都做得出來,但是考量太多方法會讓研究一直無法聚焦,實驗與分析也會不夠紮實,因為包含太多變因了。既然這種標註計算重要程度的方式在目前來說仍屬先導研究,那麼就先從既有理論中選擇要分析的因素吧。
雖然有點為自己護航的感覺,不過我相信這方法儘管略為單純,但還是的確能夠提昇使用者閱讀文獻時抓到重點的能力。如果實驗結果真的能夠證實這點,那麼老師們應該就能夠信服了吧。
因此,下一個要規劃的是實驗與結果分析的方法。這次會重新再修正研究問題,並且根據研究問題構想實驗結果的假設,然後要用從實驗中取得哪些數據來驗證。整個大綱在昨晚及今天聚餐吃飯的時候都大致完成了,接下來就是整理成投影片、將之具體地呈現出來,並在下週meeting與這邊報告。
寫完書之後,工作節奏就變得很緊奏了呢。大概是因為不像寫書時得跟很多作者配合,接下來的事情真的完全都是自己可以掌握的,所以就可以一股腦兒都投注在上面的緣故吧。也因此最近常常失眠,躺在床上胡思亂想論文內容,翻來覆去弄得室友睡不好XD
總之繼續努力吧。