你曾遇到過PDF難題嗎?好比,沒法選擇文本進行復制,或者搜索PDF文檔中已有的單詞時,卻搜索不到任何結果,緣由很簡單,只要有正確的工具,問題就能輕鬆解決。工具
爲何PDF文檔表現有所不一樣?佈局
PDF文檔根據文件建立的方式,可分爲三種不一樣的類型,文件最初的建立方式規定了PDF內容(文本、圖像、表格)可否訪問,或是否「鎖定」在頁面圖像中。spa
想要理解PDF的結構,應該按照圖層來理解。上面一層只是一張圖片,若是你想訪問文本,則須要有第二圖層,即文本層,位於圖片層下面,被隱藏了。翻譯
「真正」或數字建立的PDF文檔orm
使用軟件Microsoft Word、Excel,或者經過軟件應用程序(虛擬打印機)中的「打印」功能建立,由文本和圖像組成。可搜索,內容可訪問,以便註釋和重複使用。索引
「僅圖像」或掃描的PDF文檔圖片
由一體化設備和辦公室掃描儀上的掃描紙質文檔建立,或者轉換jpg或tiff圖像爲PDF時建立。文檔
僅包含掃描的或者拍攝的頁面圖像,底下不帶有文本層,內容「鎖定」在快照圖像中。不可進行搜索,內容不可訪問。get
可搜索的掃描PDF文檔form
文本層被添加到圖像層,一般放在下面,可進行搜索,內容可訪問,可進行註釋和重複使用。可能會出現一些限制,好比圖片元素和圖像。
什麼是OCR?它和處理PDF文檔有何關聯?
不少掃描儀均可以建立PDF文檔,但也僅限於建立圖像或文檔快照,不過就是一堆黑白或彩色的點,稱爲光柵圖像,無其餘數據。要想從掃描文檔或「僅圖像」PDF文檔中提取並利用數據,須要OCR文字識別軟件,好比ABBYY FineReader,或者PDF工具,如ABBYY PDF Transformer+。
光學字符識別或者文本識別能夠解鎖「困」在掃描/拍攝的文檔圖像上的信息,OCR軟件能夠經過翻譯字符圖像「讀取」文檔裏的內容,讓轉換文檔內容和佈局爲可搜索和可編輯的格式成爲可能。
OCR對你處理PDF的平常工做有何影響呢?
如今你知道了:每次想要選取PDF文檔裏的內容時都會失敗,要麼就是沒法搜索文檔裏的關鍵詞,幾乎就是在處理掃描的「僅圖像」PDF文檔。
有了OCR,使用ABBYY FineReader,就能夠將掃描的「僅圖像」PDF文檔轉換爲包含可選擇和可搜索文本的PDF文檔,實現輕鬆管理、複製和索引內容,以及全文本搜索。
處理PDF文檔變得更加簡單和更有效率,由於:
•能夠處理掃描的紙質文檔和「僅圖像」PDF文檔,就跟處理數字建立的PDF文檔同樣;
•能夠更加快速地從文檔中找到並訪問信息,不再用在紙堆裏翻箱倒海了;
•能夠重複使用文檔裏的信息,無需手動從新輸入;
•和同時協做的時候,能夠選擇文本進行強調、評論和添加註釋;
•可使用「搜索和編輯」功能編輯文檔中出現的機密信息。