第一步:安裝Microsoft Office Document Imaging
要安裝Microsoft Office Document Imaging,須要先下載該軟件。其實Microsoft Office Document Imaging不須要下載,Microsoft Office 200三、2007都提供了該工具,咱們能夠在「開始」菜單的「Microsoft Office 工具」找到該軟件。若是在「Microsoft Office 工具」沒有該軟件,能夠插入Microsoft Office安裝盤,選擇「Office 工具」中的「Microsoft Office Document Imaging」安裝該軟件。
第二步:把PDF文檔「打印」爲多頁面的圖像
Microsoft Office Document Imaging安裝後,會給Windows安裝一個叫Microsoft Office Document Image Writer的虛擬打印機,該打印機能把任何文檔,包括PDF文檔打印爲MDI或TIF格式的圖像:
1. 用Adobe Reader等PDF瀏覽器打開PDF文件;
2. 選擇「文件→打印」,打開「打印機」對話框;
3. 在「名稱」中選擇「Microsoft Office Document Image Writer」打印機,打印範圍能夠選擇所有頁面或當前頁面;
4. 在正式打印前,還須要設置輸出格式和圖像的保存位置:點擊「屬性」,選擇輸出格式和保存文件夾,通常狀況下,咱們選擇MDI格式便可;
5. 點擊「肯定」,選擇的頁面就會被打印爲MDI格式的文件
提示:MDI和TIF是圖像文件,它們共同的特色是一個文件中能夠包含多頁圖像,所以咱們能夠把一個具備不少頁的PDF文件打印爲一個MDI或TIF文件。
第三步:執行OCR,把圖像中的文字識別爲可編輯的文本
默認設置下,打印完成後,生成的MDI文件會自動被Microsoft Office Document Imaging打開。在Microsoft Office Document Imaging中,咱們可使用「頁面窗格」或工具欄上的「上一頁」或「下一頁」按鈕,查看包含在MDI或TIF文件中的多頁圖像。定位到須要的頁面,咱們就能夠執行OCR識別了。
1. 選擇須要識別的頁面,而後點擊工具欄上的OCR識別按鈕,如圖7所示,能夠選擇全部頁面或當前頁面進行識別;
2. 點擊「肯定」,Microsoft Office Document Imaging啓動OCR識別引擎開始對選擇的頁面進行識別;
3. 點擊工具欄上的框選工具,在須要提取的文字上畫框,而後點擊右鍵,選擇「將文本發送到WORD」,便可將要提取的文字發送到WORD中;
4. 若是要將整個頁面或全部頁面上的文字發送到WORD,可點擊工具欄上的「將文本發送到WORD」按鈕,在打開的對話框上選擇「全部頁面」或「當前頁面」,便可將所選頁面上的文字發送到WORD中。
提示:MDI文件還有一個特性就是能將識別出的文本和原來的圖像同時保存下來。這也就是說,咱們下次打開MDI文件,不須要再執行OCR識別,就可把頁面上文字發送到WORD中。
第四步:在WORD中糾錯,排版文本
經過觀察發送到WORD的文本,咱們會發現不少文字被錯誤地識別成其它字。實際上,100%地識別圖像上文字是不可能的,要提升識別率,咱們可選用清晰度較高的PDF文件,另外,若是文件被打印成TIF格式,選擇較高的分辨率也能提升識別率。不過還好,藉助Word強大的文字編輯與排版功能,咱們能夠對照原版對識別後的文檔進行校訂。瀏覽器
文章如轉載,請註明轉載自【網管小王的獨立博客】:http://www.5iadmin.com/ide