簡體用語轉換成臺灣用語的線上工具:繁化姬 / Online Tool for Converting Simplified Chinese Terms to Taiwanese Terms: Fanhuaji
許多人已經使用ChatGPT等大型語言模型來產生文字。我們可以更進一步地將這些文字輸入到繁化姬轉換成台灣化用語,以此產生更像是台灣人所寫的內容。
Many people have used large language models like ChatGPT to generate text. We can take a step further by inputting this text into Fanhuaji to convert it into Taiwanese terms, thus producing content that more closely resembles what a Taiwanese person would write.
文生文的人工智慧 / Artificial intelligence: Text to text
https://www.auraquantic.com/chatgpt/
大型語言模型(Large Language Models, LLMs)是一種先進的人工智慧技術,它的主要目的是理解和生成人類的語言。這種技術依賴於深度學習(Deep Learning)算法,透過分析大量文本資料來學習語言的結構、語法以及詞彙間的關係。其核心功能包括文本生成、語言理解、機器翻譯、以及自然語言處理(Natural Language Processing, NLP)等。
在實際應用中,大型語言模型已經成為撰寫文稿、生成報告、創作文學作品等多個領網域的有力工具。使用者可以透過與模型的互動,提出具體要求,如撰寫特定主題的文章、生成特定風格的文本等。日本作家九段理江在獲得芥川獎的作品《東京都同情塔》也使用了ChatGPT撰寫部分內容,她認為這是跟AI一起合作創作的結果。AI模型根據其所學習到的知識庫和語言規則,自動生成與要求相匹配的文本,大大提高了寫作效率和文本的多樣性。此外,這種技術的發展也促進了自動化寫作軟體的創新,為未來語言相關技術的進步開闢了新的道路。
人工智慧的中文問題 / Chinese issue in AI
然而,在使用人工智慧產生中文文字時,我們會很容易注意到文本內容明顯偏向中國大陸的用詞,而非臺灣本地的用法。即使我們已經在提示語裡加上指示,但仍然無法完全控制人工智慧的產出。
造成這個現象的原因在於人工智慧的訓練資料。目前各家公司的做法都是從網路上抓取文本內容再來進行處理。顯然的,中國大陸的文本內容比起臺灣的文本有著不只是一個量級之間的差距。而大多工程師主要只會用既有的繁簡轉換工具來替換用詞,這些工具的更新速度遠不及現代用語變化的速度。最終導致了人工智慧產生的文本內容僅能將簡體字轉換成繁體字,但中國大陸的用詞卻無法完全對應到台灣人習慣使用的詞彙。
讓我們來看看這個例子。我給ChatGPT 4的提示語是:「請用介紹數位典藏,字數在200個字以內。」而它的回答如下:
数位典藏是一种利用现代信息技术收集、保存和提供数字化形式的文化和科学遗产访问的过程。这包括文献、艺术作品、历史文物和其他重要资料的电子副本。通过数位典藏,这些宝贵资源可以跨越时间和空间的限制,使全球的研究者、学生和公众都能轻松访问。它不仅有助于保护脆弱或难以获取的资料,还促进了教育和学术研究的发展,确保了文化遗产的长久保存和广泛共享。
目前的確是有很多方案可以將簡體字轉換成繁體字,例如我們也可以用Google翻譯的中文(簡體)轉換成中文(繁體)。但有時候我也會有自己習慣使用的術語,而不希望使用方案提供的既定寫法。而今天要講的繁化姬就能很好地滿足我的需求。
繁化姬 / Fanhuaji
根據繁化姬的說明文件來看,繁化姬是一個繁簡轉換與本地化的工具。除了轉換模式外,還提供了多種轉換模組,可以讓使用者在不同的情境下調整對應的設定。這些模組包括了通用的人名、地名等專有名詞、電腦詞彙的轉換。繁化姬在轉換完成後,也會提供與轉換前的差異比較,這可以讓使用者快速檢查那些有被調整的細節,以確保繁化姬修改的文字都符合自己的預期。
繁化姬的轉換目標為「最大化一般情況下的正確率」。 這意味著,對於不確定是否該進行轉換的字詞, 繁化姬很可能會選擇轉換它們,而非保持原文。 這與 OpenCC 的「嚴格區分一簡對多繁和一簡對多異、能分則不合」不同,你也可以使用OpenCC的線上工具「字開放中文轉換」來測試看看兩者之間的不同。但從可自訂性的程度來看,繁化姬可能會是更好的選擇。
繁化姬的自訂取代 / Custom replacement of Fanhuaji
繁化姬最重要的特色在於能夠讓使用者輕鬆地制訂需要取代的用詞。我們可以在打開繁化姬的網頁後,(1) 從選單列進入「自訂取代」;(2) 設定轉換後取代。
轉換後取代的設定方式是將欲轉換的詞彙與對應的詞彙之間用等號(=)相連。舉例來說,如果你想要將中國大陸用語「只讀存儲器」轉換成臺灣用語「唯讀記憶體」的話,寫法如下:
只讀存儲器=唯讀記憶體
必須注意的是此處的「只讀存儲器」是已經轉換成繁體之後的文字,而非簡體字「只讀存储器」。繁化姬會自動將簡體字轉換成繁體字,也會轉換部分用詞。但如果你要自訂取代的話,此處的欲轉換詞彙必須設定為繁體字。如果有多個詞彙要轉換的話,可以按「Enter」換行設定更多詞彙。
https://github.com/pulipulichen/Fanhuaji-Configuration/blob/main/replacement.txt
我將自己用到自訂取代設定放到GitHub上保存,有需要的朋友可以自行參考。但話說在前頭,這並不一定是最符合臺灣人的寫法,你還是要根據你的寫作目標來修改。
你在繁化姬的設定會保存在網頁瀏覽器中。下次開啟網頁時,這些設定不會被重置。因此我推薦你一邊使用繁化姬,一邊發展出自己常用的自訂取代,這可能會是比較好的做法。
使用繁化姬來轉換文本 / Use Fanhuaji to convert text
設定好自訂取代後,我們就能用繁化姬來轉換文本。做法如下:
- 在「轉換前文字」貼上剛剛從ChatGPT產生的文本。
- 按下「轉換模式」中的「臺灣化」。
- 在「轉換後結果」右邊按下「複製到剪貼簿」。
繁化姬轉換的結果如下:
數位典藏是一種利用現代資訊技術收集、保存和提供數位化形式的文化和科學遺產取用的過程。這包括文獻、藝術作品、歷史文物和其他重要資料的電子副本。透過數位典藏,這些寶貴資源可以跨越時間和空間的限制,使全球的研究者、學生和公眾都能輕鬆取用。它不僅有助於保護脆弱或難以獲取的資料,還促進了教育和學術研究的發展,確保了文化遺產的長久保存和廣泛共享。
你可以注意到繁化姬不僅是將簡體字轉換成繁體字,而且部分用詞也一併跟著轉換成臺灣常見的術語。舉例來說,原本ChatGPT寫的是「现代信息技术」,轉換後成為了「現代資訊技術」;「通过数位典藏」的「通過」被轉換成「透過數位典藏」的「透過」。
我們將繁化姬的網頁往下捲,下面就能看到轉換前後的差異比較。你可以在此仔細檢查繁化姬轉換前後的結果,確保每個轉換都能符合你的預期。
結語 / In closing
繁化姬提供了基本的簡體字轉換成繁體字的功能,它內建了部分用詞之間的轉換。但對我來說,繁化姬在自訂取代跟差異比較的功能其實更為重要。因為這可以讓我為最後產生的結果把關。不論是使用ChatGPT產生文章,還是利用繁化姬來轉換用詞,我們仍要為最後產生的文字內容負起責任,而不是放任人工智慧跟演算法來替我們說話。
別忘了,我們不是要當個被人工智慧取代的人類,而是要成為能夠駕馭人工智慧的人類。共勉之。
這篇關於繁化姬的介紹就寫到這裡結束了。文章的最後要來問大家的是,你是怎麽處理繁簡文字之間的轉換呢?
- 1. 我都用Word內建的繁簡轉換功能。不過這似乎是特定地區的Office才有提供的工具。
- 2. 我都用Google翻譯來轉換。
- 3. 程式設計師都用OpenCC。
- 4. 不要轉換了啦,反正都看得懂。
- 5. 其他:歡迎在下面留言,分享你的看法喔!