:::

用Acrobat Pro把PDF轉換成HTML:AutoIt一鍵轉換方案 / How to convert a PDF to HTML with Acrobat Pro? An AutoIT solution

image

為了使用Acrobat Pro能夠正確地將PDF轉換成HTML網頁的功能,我用AutoIt寫了一個自動操作腳本的exe執行檔,可以將指定的PDF轉換成HTML檔案。


為什麼要用Acrobat Pro來轉換HTML? / Why I want Acrobat Pro to convert PDF into HTML?

可以將PDF轉換成HTML的工具很多。除了網路上的免費服務,例如PDFOnlineFree PDF to HTML、或是PDF to HTML之外,還有鼎鼎大名的pdf2htmlEX,這可是我用過能夠將PDF的排版樣式跟字型精確地轉換成HTML的最佳工具了。

用pdf2htmlEX轉換HTML / Export to HTML via pdf2htmlEX

image

我們以「Reference Transactions Analysis: The Cost-Effectiveness of Staffing a Traditional Academic Reference Desk」這篇論文的PDF為例。

image

上圖是使用pdf2htmlEX將一個兩欄式的PDF轉換成HTML的結果。PDF原始檔案跟轉換後的HTML檔案如下:(謹提供論文一頁供測試)

pdf2htmlEX完美地保留了PDF原始檔案的版型,乍看之下似乎是很不錯。但事實上,這種版型只適合出現在固定紙張大小的列印紙本上,並不適合用於螢幕大小千變萬化的HTML網頁上。

image

上圖是用手機模擬開啟pdf2htmlEX轉換的HTML檔案的畫面 (搭配xxx的框架)。從這裡可以很明顯看到維持列印版型的HTML只能顯示左邊單欄的內容,並不利於在窄螢幕的手機上閱讀。

換句話說,只有打破原本的排版框架,以單欄的方式來呈現文字內容,這樣子的HTML才是真正適合在各種電子載具上閱讀的網頁。

用Acrobat Pro轉換HTML / Export to HTML via Acrobat Pro

image

同樣的兩欄式PDF,現在改用Acrobat Pro來轉換看看。最後結果如上圖所示,轉換後的HTML不再拘泥於列印時使用的兩欄式版型,而能夠以單欄的方式呈現整個內容。

nexus5x-portrait (2)

在手機上觀看這樣的HTML,就可以跟我們平常用手機閱讀新聞一樣地自然。我相信現在應該沒人還希望左右移動才能閱讀網頁的內文吧。

由此可知,用Acrobat Pro將PDF轉換而成的HTML檔案可說是目前我所知道的最佳方案了。

可惜的是,Acrobat Pro只有提供圖形化的操作介面,並沒有指令端的介面。如果要將許多PDF批次轉換成HTML,那就得一個檔案一個檔案手動慢慢來。

懶人工程師如我,在重複操作同樣的流程三次左右,就會開始想辦法用自動化來節省這個流程。於是這次又找來了AutoIt來做一個操作Acrobat Pro把PDF轉換成HTML的機器人啦。


acrobat-pdf-to-html.exe下載 / Download acrobat-pdf-to-html.exe

這個acrobat-pdf-to-html.exe是我用AutoIt所寫的Windows自動操作機器人。

必須說明的是,這個機器人是我為Windows 7 64位元的英文介面下的Acrobat Pro DC環境所製作,在非以上環境下執行可能會有錯誤。有心要克服的話,可以直接修改acrobat-pdf-to-html的原始檔acrobat-pdf-to-html.au3再用AutoIt重新編譯即可。

使用說明 / Instruction

image

acrobat-pdf-to-html.exe的使用方式很簡單,只要將PDF用acroabt-pdf-to-html.exe開啟,這樣就會自動執行機器人來把它轉換成HTML了。

你可以將PDF拖曳到acrobat-pdf-to-html.exe來執行,也可以將acrobat-pdf-to-html.exe設定成預設關聯程式。後者的詳細作法請看「以Default Program Editor設定Windows7預設關聯程式」這一篇的說明。

以下是acrobat-pdf-to-html.exe的實際操作錄影畫面:

Acrobat-pdf-to-html操作錄影

批次轉換 / Batch Convert

image

acrobat-pdf-to-html除了可以轉換單一的PDF之外,可以拖曳多個PDF或資料夾,acrobat-pdf-to-html就會一個一個批次執行轉換的動作。當有許多PDF需要轉換成HTML的時候,這個功能特別方便喔。


結語 / In closing

這個acrobat-pdf-to-html是我最近為了做文本探勘研究而開發的工具。我的做法是先用Zotero從資料庫下載書目資料與全文的PDF,再用這個工具把PDF轉換成HTML,接著就可以把HTML儲存到資料庫進行分析。

最近我好像很常用AutoIt來做各種功能啊。其實在寫這一篇的時候,我另外也完成了使用Acrobat Pro將多個檔案合併成一個PDF的AutoIt機器人:acrobat-combine-files,不過還有點不穩就是了。

雖然閱讀跟加註PDF最好用的工具是PDF-XChange- Editor,但不得不承認,只要是編輯PDF相關的功能,還是原廠的Acrobat Pro好用。上次講到的PDF壓縮功能,也是Acrobat Pro能夠做到兼顧畫質與檔案大小的壓縮設定,真的很厲害。能夠做到這樣的程度,花14200元付錢購買也足以讓人心服口服了……

14200元……嗯……