:::

將PDF轉換成模仿成掃描檔:ScanSim PDF / Converting PDF to Simulated Scanned Document: ScanSim PDF

5月 19, 2025 , 0 Comments Edit Copy Download

2025-0109-095818.png

列印、簽名、拍照、轉換成PDF、上傳,這是現在很多證明文件的處理手續。處理後的PDF檔案只是圖片的封裝,不能直接選取與複製,只能作為證明文件留存,這已經是最基本的資安防護手段。然而,如果可以將數位文件直接轉換成彷彿掃描檔一樣的檔案,那不就可以省下列印與掃描的繁雜手續了嗎?也許這時候Docker APP ScanSim PDF就能夠派上用場了。

Printing, signing, taking a photo, converting it to PDF, and uploading it—this is the procedure for processing many verification documents nowadays. The processed PDF file is merely a container for the image; the text cannot be directly selected or copied. It can only serve as an archive of the verification document, which is a basic security measure. However, if digital documents could be directly converted into files that resemble scanned documents, wouldn't that eliminate the tedious printing and scanning steps? Perhaps the Docker APP ScanSim PDF could be useful in this situation.


包含文字的PDF檔案 / A PDF File Containing Text

2025-0109-090556.png

上圖是一個常見的緊急聯絡通訊錄PDF檔案。通常我們會將此PDF列印,拿去給大家簽名,簽完名後再掃描歸檔。

2025-0109-090655.png

由於這個檔案是由Word直接轉換成PDF的關係,上面的文字是可以直接選取、複製,也可以直接用搜尋找出來。如果是要當成資料庫來查詢的話,這當然是很不錯。但也有人會覺得這樣填完的資料可能會被有心人士複製,會有資安疑慮。

模擬成掃描檔的PDF檔案 / A PDF File Simulating a Scanned Document

2025-0109-091001.png

經過ScanSim PDF處理之後,最後也會得到一個PDF檔案。看起來好像有點髒。

2025-0109-091058.png

此時裡面的文字已經不能直接選取。有心人士得要用OCR等AI工具才能取得文字的內容,而且還要分析表格排版的問題。

把這樣的PDF檔案拿去作為證明文件歸檔,至少就能增加一點資安防護的效果。


ScanSim PDF

https://github.com/pulipulichen/docker-app-ScanSim-PDF/tree/main?tab=readme-ov-file#scansim-pdf-%E5%B0%87%E6%95%B8%E4%BD%8Dpdf%E8%BD%89%E6%8F%9B%E6%88%90%E6%A8%A1%E4%BB%BF%E6%8E%83%E6%8F%8F%E7%9A%84pdf

https://github.com/pulipulichen/docker-app-ScanSim-PDF 

ScanSim PDF我建立的Docker APP應用程式。它的用途是將電子文件模擬成列印後再掃描成PDF的結果。做法是將任意文件轉換成圖片檔,然後稍微轉個角度,再將它組合成PDF檔案。轉換後的PDF不能選取文字,也刻意地呈現有點粗糙的感覺。

具體來說,ScanSim PDF做了四件事情:

  1. 將各種文件,包括PDF,轉換成一頁一頁的圖片檔案。
  2. 將圖片檔案稍微轉一點角度,讓處理完的圖片不會是原始的垂直線或水平線。
  3. 將圖片檔案加上一點點噪點。不影響人眼直接閱讀,但可能可以降低一點OCR的辨識效率。
  4. 將圖片檔案重組成PDF檔案。

這樣ScanSim PDF就完整了它整個操作了。

如何使用 / How to Use

https://colab.research.google.com/github/pulipulichen/docker-app-ScanSim-PDF/blob/main/colab/docker-app-ScanSim-PDF.ipynb

https://colab.research.google.com/github/pulipulichen/docker-app-ScanSim-PDF/blob/main/colab/docker-app-ScanSim-PDF.ipynb 

通常我們可以搭配Colab來使用。

2025-0109-091637.png

你可以按照「如何使用Docker APP?」這篇的說明,將PDF檔案上傳並執行Docker APP,然後就可以取得處理後的結果。

2025-0109-094425.png

完成後便能在檔案側邊欄的output找到轉換後的PDF檔案。

2025-0109-094455.png

在檔案右邊選單找到「Download」下載即可。


結語 / Conclusion

2025-0109-094708.png

ScanSim PDF將包含文字的PDF檔案轉換成像是由掃描構成的圖片PDF檔案,確實能做到最基本的資安防護。即使現在很多手機的相機應用程式都內建了OCR功能,但這也提高了大家取得資料的門檻,為資安防護多增加一道牆。

下次當你要把含有個資的證明文件傳送給別人之前,不妨先使用ScanSim PDF把包含文字的PDF檔案,轉換成彷彿是掃描的PDF檔案,然後再交給別人吧。


那這篇關於ScanSim PDF的介紹就到此為止了。文章最後的問題是,你都是怎麽填寫證明文件中的資料呢?

  • 1. 在紙本上用筆填寫資料和簽名。
  • 2. 大部分的資料都在電腦檔案上填寫,只有簽名是印出來用筆簽名。
  • 3. 將簽名檔掃描成圖片,全部的資料都在電腦上填寫。
  • 4. 我都請助理填完。
  • 5. 其他:歡迎在下面留言,分享你的看法吧!