電腦軟體 17 Comments Edit Copy Download

將書本掃描圖檔做成電子書的時候，左右頁面的切割、角度的轉正等問題總是令人難以處理，而如何做成PDF也是一個問題。我找了許多方法之後，歸納出1. 掃描書本、2. 以Scan Tailor裁切與轉正、3. 以XnView MP修正圖片、4. 以Bullzip PDF Printer製作PDF、5. 以PDF-XChange Editor為PDF加入OCR、6. 以ORPALIS PDF Reducer縮減PDF檔案大小，透過共6個步驟與免費軟體來製作電子書的做法。

Phase 1. 掃描書籍為電子檔 / Scan book to image file
- 掃描結果 / Scanned Page
Phase 2. 使用Scan Tailor裁切、轉正頁面 / Use Scan Tailor to split and deskew pages
Phase 3. 使用XnView MP校正與轉換圖片 / Use XnView MP to adjust and convert pages
Phase 4. 使用Bullzip PDF Printer製作PDF檔案 / Use Bullzip PDF printer to convert pages to PDF file
Phase 5. 使用PDF-XChange Editor製作OCR的PDF檔案 / Use PDF-XChange Editor to add OCR into PDF file
Phase 6. 使用ORPALIS PDF Reducer縮減PDF檔案的大小 / Use ORPALIS PDF Reducer to reduce PDF file size
檔案的變化 / File number and total size of Scanned Page
- 如果PDF處理改用Adobe Acrobat Pro的話？ / How about use Adobe Acrobat Pro to convert PDF?
結語：請尊重著作權 / Conclusion: Please respect copyright

Phase 1. 掃描書籍為電子檔 / Scan book to image file

掃描書籍為電子檔的方法很多。便宜的方案有平臺式掃描機、手持式掃描機。前者每次掃書時都要翻頁，而且選擇範圍、裁切、轉正等功能薄弱，效率不彰；後者其實真的很難掃描書本，光是要手持順利滑完掃描範圍都需要技術，效率更差。

昂貴的方案則是使用平床式掃描機，例如這臺SMA 21平床式掃描機。它的兩頁書本掃描模式可以有效減少書本左右頁面的高度差異，掃描時可以準確貼近平面。而且掃描時也不用拿書、壓書，掃描時效率快很多。缺點就是非常昂貴，然後這臺也不會有自動翻頁功能！

感謝學校提供的豐富資源，我主要都是用SMA21平床式掃描機來掃描。掃描機的主要操作方式請看我之前的文章，在此就不再贅述了。如果讀者有其他種好用的方法，也請在下面留言處推薦喔。

掃描結果 / Scanned Page

最後掃描出來的結果如下圖所示，這也是這一篇文章主要處理的對象。

由於這本書已經破破爛爛了，所以掃描結果並不能完美地僅抓到左右頁的內容，而連帶後面幾頁也掃描了進來。而且左頁面也稍微有點右斜，並不太正。這種偏斜都會影響到後續OCR的正確程度，所以我們必須要先將這種掃描頁面做些處理。

Phase 2. 使用Scan Tailor裁切、轉正頁面 / Use Scan Tailor to split and deskew pages

接下來我們要用Scan Tailor來做裁切與轉正頁面的動作。

Scan Tailor官方網站：http://scantailor.org/
Scan Tailor 0.9.11.1下載：https://github.com/scantailor/scantailor/releases/tag/RELEASE_0_9_11_1
Scan Tailor 0.9.11.1 (64位元)備份：OneDrive、Box、Mega
Scan Tailor 0.9.11.1 (32位元)備份：OneDrive、Box、Mega

請依據你電腦是32位元或64位元來選擇合適的Scan Tailor版本安裝，安裝之後請開啟該軟體。

Scan Tailor的功能有6個步驟，包括1. 修正方向、2. 分割頁面、3. 糾偏、4. 選擇內容、5. 邊距、6. 輸出。幾次摸索之後，我主要只使用分割頁面與糾偏兩個功能，其他步驟則是用固定的參數與設定來略過。以下我一步一步介紹操作的教學。

Step 1. 建立新專案 / Create new project

Scan Tailor會將一個批次處理視為一個專案(Project)，因此我們必須先建立新專案。

進入「檔案」 > 「建立新專案」。

看到跳出的「專案檔案」視窗，在「輸入目錄」後面點選「瀏覽」。

選擇存放掃描頁面的目錄。

「專案中的檔案」會出現掃描頁面的檔案。在本文中我僅以一個檔案作為例子而已，所以只載入一個。通常在掃描整本書的時候，都會出現上百個檔案。確認無誤之後按下「OK」。

接下來會看到Scan Tailor的視窗主畫面出現了待處理的掃描頁面，而我們也進入了「1. 修正方向」的處理階段。但一般來說掃描完方向應該都是正確的，所以我們忽略修正方向階段，點選「2. 分割頁面」進入下一個階段。

Step 2. 分割頁面修正方向 / Split Pages

進入「2. 分割頁面」之後，先按下箭頭圖示，Scan Tailor會以自動模式來切割頁面。分析完畢之後，頁面會以左藍右紅的形式來顯示，如上圖所示。

大多時候Scan Tailor的判斷都很準，但如果頁面上有更明顯的直線，且接近中間的時候，Scan Tailor有時候會判斷錯誤。上圖左頁與右頁的分割線判斷錯誤，實際上頁面分割的地方應該右邊一點。

這時候可以直接拖曳藍色的切割線來改變位置，或是拖曳上下的藍色圓球來改變角度。

請以鍵盤的Page Down與Page Up來檢查每一個頁面是否都有正確分頁。確認完成之後，再按左上角的「3. 糾偏」來進入下一階段。

Step 3. 糾偏 / Deskew

在糾偏階段一開始，我們一樣先按下箭頭圖示來讓Scan Tailor自動處理糾偏。在此時我們可以注意到頁面已經被切割成左右兩頁。

處理完成之後，可以看到中間的主視窗裡面有多個方格參考線，以及可以調整角度的藍色小球。我們可以用滑鼠中鍵來放大與縮小頁面，然後用捲軸來控制位置。放大之後可以觀察看看頁面的橫線有沒有對齊參考線，以此來確定是否頁面已經轉到水平的角度。如果角度沒有轉得很正確，你也可以手動拖曳小圓球來轉正。

Scan Tailor的糾偏正確性很高，這一階段我大多都讓Scan Tailor自動處理。如果遇到自動處理無法判斷的角度，Scan Tailor會停在該頁，讓你手動調整角度。

確認沒問題之後，點選「4. 選擇內容」進入下一階段吧。

Step 4. 選擇內容 / Select Content

Scan Tailor的選擇內容功能並不好用。上圖是Scan Tailor自動判斷的選擇內容，大部分資訊都被忽略了。與其如此，我寧願保留頁面全部的內容。很遺憾的是，Scan Tailor並沒有選擇頁面全部內容的選項，不過我可以修改專案檔案來讓Scan Tailor每一頁都選擇全部內容，請照著以下步驟進行吧。

首先先按下「手動」，然後按下範圍中的「套用到…」。

選擇「所有頁面」，按下「OK」。

按下批次處理的箭頭圖示，等待Scan Tailor把頁面全部判斷完畢。

這時候每一頁判斷的位置應該都跟第一頁一樣，很奇怪，但沒關係，我們繼續下一步驟。請按下「檔案」中的「儲存專案」。

找個位置儲存，輸入一個檔案名稱，例如「20150710」，按下「Save」儲存。這時候Scan Tailor專案的檔案名稱為「20150710.ScanTailor」，副檔名很長喔。

接下來在上面的檔案表單中選擇該檔案。

選擇完之後會自動跳出調整後的專案檔案，請覆蓋掉原本的專案檔案。

再回到Scan Talior，選擇「檔案」中的「開啟專案」。

這時候會有一個警告視窗問你是否要儲存專案，按「Discard」表示不儲存。

選擇剛剛覆蓋之後的專案檔案，按下「Open」開啟。

再跳到內容，你可以發現所有的頁面都選擇了全滿的內容。

這樣子選擇內容階段就算是完成了，讓我們點選「5. 邊距」進入下一階段。

Step 5. 邊距 / Margin

「5. 邊距」中，Scan Tailor會在頁面加入額外的空白，但我並不使用這個功能，因此以下設定是關閉邊距的做法。

首先在左邊「邊距」的上下左右的數字設為0。接著按下「套用到…」。

在「套用邊距設定」中，選擇「所有頁面」，按下「OK」。

然後「對齊」的「與其他頁面大小相同」取消打勾。接著按下「套用到…」，選擇「所有頁面」。

最後按下批次處理的箭頭圖示，讓所有頁面都沒有多餘的邊距。然後按下「6. 輸出」來進入下一階段。

Step 6. 輸出 / Output

在「6. 輸出」階段中，Scan Tailor預設是用600 dpi與黑白模式來輸出，但我偏好使用300 dpi與灰階模式，請以下列步驟來進行調整。

點下「輸出解析度(DPI)」中的「變更…」。

將「DPI」調整為「300」，選擇「範圍」中的「所有頁面」，按下OK。

然後在「模式」中選擇「彩色/灰階」，接著按下「套用到…」按鈕。

選擇「所有頁面」，按下「OK」。

最後按下批次處理的箭頭圖示，這時候Scan Tailor會花點時間來輸出最後結果。

Step 7. 輸出的檔案 / Output files

最後處理完成的頁面會放在掃描頁面檔案底下的「out」資料夾中，原本的檔案會被切割成左頁面L與右頁面R。

下一步是什麼？ / What is NEXT?

雖然Scan Tailor將掃描的頁面切割與轉正了，可是輸出的檔案格式卻是未壓縮的TIFF格式，檔案大小非常的大。我們需要再做些後續的處理。

Phase 3. 使用XnView MP校正與轉換圖片 / Use XnView MP to adjust and convert pages

圖片批次處理工具 / Image batch convertor

XnView MP是一個免費、跨平臺的圖片瀏覽與簡易處理工具，能夠批次處理大量圖片，是我日常使用的圖片瀏覽器。這次我們也要用XnView MP來處理Scan Tailor處理後的頁面。

XnView MP官方網站：http://www.xnview.com/en/xnviewmp/
XnView MP下載頁面：http://www.xnview.com/en/xnviewmp/#downloads
(直接捲到下面的Windows的地方下載即可)
XnView MP version 0.72備份：OneDrive、Box、Mega

安裝好XnView MP之後，我們用XnView MP開啟Scan Tailor轉換好的out資料夾，可以看到剛剛處理完的圖片。接下來我們要用XnView MP批次轉換的功能來做進一步的處理。

Step 1. 選擇圖片 / Select pages

請按下「編輯」的「選擇所有圖片」。

這時候圖片檔案會處於選擇狀態。

Step 2. 批次轉換 / Batch convert

接著進入「工具」的「批次轉換…」。

格式選擇「JPG – JPEG/JFIF」，選項中勾選「刪除原始」，然後切換到「Actions」分頁來新增要處理的動作。

Step 2.1. 自動色階 / Auto Levels

自動色階是將圖片中最暗的地方設為黑色、最亮的地方設為白色，中間的顏色則按比例自動調整。

在Actions分頁中，請按下「Add action」、選擇「對映」中的「自動色階」。

以下是轉換前跟轉換後的比較，可以發現轉換後明顯較量，字也比較黑白分明了：

COPY

POPUP

轉換前	轉換後

Step 2.2. 改變顏色深度 / Change color depth

如果書頁沒有彩色圖片，那我們可以利用改變顏色深度來將圖片轉換成灰階。

在Actions分頁中，請按下「Add action」、選擇「圖片」中的「改變顏色深度」。

選擇「灰階」，深度用預設的「256」即可。

Step 2.3 調整大小 / Adjust size

接下來我們要縮小圖片的尺寸，以降低最後PDF的檔案大小。

在Actions分頁中，請按下「Add action」、選擇「圖片」中的「調整大小」。「寬度」與「高度」設為1000像素，勾選「保持比例」，「放大/縮小」選擇「只縮小」。

Step 3. 開始轉換 / Start convert

設定完畢之後，按下右下角的「轉換」來開始轉換。

由於先前勾選了「刪除原始」，所以會跳出一個「'刪除原始檔案'選項已啟用,要繼續嗎?」的警告，請按「是」繼續。

接著XnView MP會花點時間進行批次轉換，轉換完成之後會看到「Total Duration: 0秒」之類的訊息。這時候請按下「取消」來離開批次轉換功能。

就這樣子，書頁的圖片檔案就處理完成囉。

下一步是什麼？ / What is NEXT?

不過一頁一頁的圖片檔案不好閱讀，而且也不能像PDF一樣進行標註，因此接下來我們要把這些書頁轉換成一個PDF檔案。

Phase 4. 使用Bullzip PDF Printer製作PDF檔案 / Use Bullzip PDF printer to convert pages to PDF file

PDF轉檔工具 / PDF Convertor

將圖片轉換成PDF的方法很多，羅正漢在2010年比較過6種免費的PDF轉檔工具，優缺點不一，但我個人比較偏好使用的是Bullzip PDF Printer。

Bullzip PDF Printer官方網站：http://www.bullzip.com/index.php
Bullzip PDF Printer下載：http://www.bullzip.com/products/pdf/download.php#CommunityEdition
請下載免費的Community Edition
Bullzip PDF Printer (Setup_BullzipPDFPrinter_10_13_0_2368_FREE.exe)備份：OneDrive、Box、Mega

Bullzip PDF Printer會在電腦上安裝一臺虛擬的印表機，從這個印表機中印出的檔案就會變成PDF。重灌狂人有詳細介紹過Bullzip PDF Printer，在此就不再贅述。

接下來我們就用XnView MP來將掃描的頁面印成PDF檔案吧。

Step 1. 選擇圖片 / Select pages

跟之前一樣，請按下「編輯」的「選擇所有圖片」，將預備要列印的圖片選取起來。

Step 2. 列印 / Print

進入「檔案」的「列印」。

先將「頁面佈置」換成「單頁 - 裁切成頁面大小」。接著進入到「頁眉/頁腳(標頭/標尾)」分頁。

在「頁眉/頁腳(標頭/標尾)」分頁中，取消勾選「頁腳(標尾)」，不要加入頁碼。然後按下左下角的「列印」。

選擇「Bullzip PDF Printer」印表機，然後按下「Print」。

Step 3. 選擇PDF儲存位置 / Select PDF file location

接下來會跳出Bullzip PDF Printer的對話視窗，請設定裡面的File Name欄位，按下「…」按鈕來選擇PDF檔案要儲存的位置以及檔案名稱。確定後按下「Save」按鈕。

列印完成之後會自動開啟，這就是從圖片轉換成PDF的成果了。

但是因為Bullzip PDF Printer是採用列印的方式製作PDF，對記憶體與硬碟空間的要求非常地高。當圖片數量過多的時候，就很有可能會製作失敗，這是需要注意的地方。

下一步是什麼？ / What is NEXT?

不過這樣的PDF並不能選取裡面的文字，我們難以用這個PDF進行劃線、標亮等標註的動作。所以我們還要用OCR的功能來讓這個PDF更好用。

Phase 5. 使用PDF-XChange Editor製作OCR的PDF檔案 / Use PDF-XChange Editor to add OCR into PDF file

什麼是OCR？ / What is OCR?

OCR是光學字符辨識的縮寫，簡單來說，就是從圖片中找出文字資訊，並把它轉換成電腦可以讀懂的文字的功能。早期的OCR只是將圖片中抽取出純文字，但是現在PDF的OCR則是在背景圖片上加上一層OCR辨識結果的文字層，讓OCR辨識結果能跟原始的圖片很好的結合在一起。目前OCR對英文辨識率較高、中文的辨識率相當低，OCR並不能夠完整取代文字騰打，但是用在劃線、標亮等標註功能上倒是十分好用。

OCR使用的PDF工具 / PDF tool for OCR

Tracker Software Products推出了很多PDF相關的工具，許多免費的版本卻具有跟收費Adobe Acrobat Pro一樣的功能，其中PDF-XChange Viewer更是PDF使用者必備的知名工具，詳情可以看重灌狂人的介紹。雖然PDF-XChange Viewer也有OCR功能，但是我最近比較偏好使用介面採用Ribbon設計、操作更方便的PDF-XChange Editor。

PDF-XChange Editor官方網站：http://www.tracker-software.com/product/pdf-xchange-editor
PDF-XChange Editor下載：http://www.tracker-software.com/product/pdf-xchange-editor/download
PDF-XChange Editor (PDFXVE5.x64.msi 64位元版本) 備份：OneDrive、Box、Mega

同時我們還要安裝OCR多語言擴充包：

PDF-XChange Viewer/Editor OCR Language Extensions：http://www.tracker-software.com/pdf-xchange-viewer-ocr
請下載All Languages Pack: OCRAdditionalLangsTotal.zip
OCRAdditionalLangsTotal.exe備份：OneDrive、Box、Mega

全部安裝之後再開啟PDF-XChange Editor，然後請按照下述步驟操作。

Step 1. 開啟檔案 / Open File

點選開啟按鈕，選擇剛剛使用Bullzip PDF Printer轉換的檔案。

接下來要來製作OCR。

Step 2. OCR頁面 / OCR pages

進入「文件」的「OCR頁面」。

在「辨識」中選擇主要語言，此書的內容是正體中文，因此我們選擇「Chinese (Traditional)」，「正確度」選擇「High」，然後按下「確認」。

如果主要語言裡面沒有出現Chinese (中文)，那可能是尚未安裝OCR多語言擴充包，或是裝完之後沒有關閉PDF-XChange Editor再重開。請關閉PDF-XChange Editor，安裝OCR多語言擴充包，然後重新打開PDF-XChange Editor即可。

OCR需要花上許多時間，請耐心等候。

OCR結束之後，頁面的文字就可以選取與複製了。但複製文字的正確性不高，請不要指望它真的辨識的很準。

Step 3. 儲存OCR結果 / Save PDF with OCR

按下儲存的圖示，就可以將具有OCR的PDF儲存。

下一步是什麼？ / What is NEXT?

但是這樣儲存之後檔案會稍微變大，這是比較令人困擾的地方啊。下一步我們要來找尋縮減PDF檔案大小的方法。

Phase 6. 使用ORPALIS PDF Reducer縮減PDF檔案的大小 / Use ORPALIS PDF Reducer to reduce PDF file size

ORPALIS PDF Reducer是一個批次壓縮PDF檔案的免費工具，可以幫助我們壓縮因為OCR而大幅增加檔案大小的PDF。

ORPALIS PDF Reducer官方網站：http://www.orpalis.com/products/pdfreducer/
ORPALIS PDF Reducer下載：http://www.orpalis.com/products/pdfreducer/download/
選擇最下面的「Free Edition」下的「Download」下載即可
ORPALIS PDF Reducer (2.0.2 Free)備份：OneDrive、Box、Mega

ORPALIS PDF Reducer的操作很簡單，首先在Source輸入存放PDF的目錄位置，然後在Destination指定壓縮之後PDF的存放位置，最後按下Start batch就可以了。

壓縮完成之後，ORPALIS PDF Reducer會告知壓縮率跟處理時間。

到這邊為止，大致上算是大功告成啦。

檔案的變化 / File number and total size of Scanned Page

最後我們來看一下檔案處理的變化：

COPY

POPUP

階段	檔案數量	檔案格式	檔案大小
1. 掃描書籍為電子檔	1	JPEG	633KB
2. 使用Scan Tailor裁切、轉正頁面	2	TIFF	4.16MB
3. 使用XnView MP校正與轉換圖片	2	JPEG	202KB
4. 使用Bullzip PDF Printer製作PDF檔案	1	PDF	135KB
5. 使用PDF-XChange Editor製作OCR的PDF檔案	1	PDF	382KB
6. 使用ORPALIS PDF Reducer縮減PDF檔案的大小	1	PDF	338KB

最後檔案有所減少，大概是53.4%的壓縮率。

如果PDF處理改用Adobe Acrobat Pro的話？ / How about use Adobe Acrobat Pro to convert PDF?

由於學校有採購Adobe Acrobat Pro XI，所以我上述的4到6中，其實我主要是用Adobe Acrobat Pro XI在處理。該軟體可以包辦製作PDF、增加OCR、縮減檔案大小的工作。最後處理完成的結果只有125KB，壓縮率甚至高達19.7%！

但很遺憾的是Adobe Acrobat Pro是付費軟體，而且價格非常昂貴。這邊我就暫時不介紹Adobe Acrobat Pro的使用了。

結語：請尊重著作權 / Conclusion: Please respect copyright

原本我後半部是想介紹Adobe Acrobat Pro，但是看了一下價錢，發現這真的不是一個業餘做個電子書的人買得起的程度，索性作罷，改找其他免費方案，也比較符合我對自由軟體的偏好(儘管這篇介紹的很多軟體並非自由軟體，只是免費軟體而已)。但是找來找去，最後Adobe Acrobat Pro仍然是轉換速度快、壓縮率最高的唯一選擇，免費軟體的組合只能說是堪用而已。所以如果你很幸運地擁有Adobe Acrobat Pro的話，我還是建議你用他來製作PDF就好。Adobe不愧是PDF的發起者，只有自己最熟悉PDF啊。

最後提醒大家一件事情：著作權中有再製權這一項，而本文的做法正是涉及圖書再製的行為。請尊重著作權人的權益，在合理使用的前提下自烹電子書就好，不要公然散佈導致違法喔。

不拆書的自烹PDF電子書：免費軟體Scan Tailor的方案 / How to convert scanned pages into PDF with Scan Tailor and freewares 7月 10, 2015 電腦軟體 , OS/Windows , Windows/電腦軟體 17 Comments Edit Copy Download

Phase 1. 掃描書籍為電子檔 / Scan book to image file

掃描結果 / Scanned Page

Phase 2. 使用Scan Tailor裁切、轉正頁面 / Use Scan Tailor to split and deskew pages

Step 1. 建立新專案 / Create new project

Step 2. 分割頁面修正方向 / Split Pages

Step 3. 糾偏 / Deskew

Step 4. 選擇內容 / Select Content

Step 5. 邊距 / Margin

Step 6. 輸出 / Output

Step 7. 輸出的檔案 / Output files

下一步是什麼？ / What is NEXT?

Phase 3. 使用XnView MP校正與轉換圖片 / Use XnView MP to adjust and convert pages

圖片批次處理工具 / Image batch convertor

Step 1. 選擇圖片 / Select pages

Step 2. 批次轉換 / Batch convert

Step 2.1. 自動色階 / Auto Levels

Step 2.2. 改變顏色深度 / Change color depth

Step 2.3 調整大小 / Adjust size

Step 3. 開始轉換 / Start convert

下一步是什麼？ / What is NEXT?

Phase 4. 使用Bullzip PDF Printer製作PDF檔案 / Use Bullzip PDF printer to convert pages to PDF file

PDF轉檔工具 / PDF Convertor

Step 1. 選擇圖片 / Select pages

Step 2. 列印 / Print

Step 3. 選擇PDF儲存位置 / Select PDF file location

下一步是什麼？ / What is NEXT?

Phase 5. 使用PDF-XChange Editor製作OCR的PDF檔案 / Use PDF-XChange Editor to add OCR into PDF file

什麼是OCR？ / What is OCR?

OCR使用的PDF工具 / PDF tool for OCR

Step 1. 開啟檔案 / Open File

Step 2. OCR頁面 / OCR pages

Step 3. 儲存OCR結果 / Save PDF with OCR

下一步是什麼？ / What is NEXT?

Phase 6. 使用ORPALIS PDF Reducer縮減PDF檔案的大小 / Use ORPALIS PDF Reducer to reduce PDF file size

檔案的變化 / File number and total size of Scanned Page

如果PDF處理改用Adobe Acrobat Pro的話？ / How about use Adobe Acrobat Pro to convert PDF?

結語：請尊重著作權 / Conclusion: Please respect copyright

Related Posts

總共17 則留言 ( 我要發問 , 隱藏留言 顯示留言 )

About Me

布丁布丁吃布丁

Luminous Blessing (Donors)

Facebook Fanpage

Random Posts

Guestbook

Comments

Recent Posts

Loading...

不拆書的自烹PDF電子書：免費軟體Scan Tailor的方案 / How to convert scanned pages into PDF with Scan Tailor and freewares

7月 10, 2015 電腦軟體 , OS/Windows , Windows/電腦軟體 17 Comments Edit Copy Download

總共17 則留言 ( 我要發問 , 隱藏留言顯示留言 )