PartA Introduction, Background, Fundamentals:

Suzanne Briet (1894–1989) is recognized for her pioneer role in laying the foundations of modern information science. In her manifesto titled Qu’est-ce que la documentation? (「What is documentation?」), she defines a document as evidence in support of a fact; a physical or symbolic sign, preserved or recorded, for representing, reconstructing or demonstrating a physical or a conceptual phenomenon. Thus, a document documents something, it is a representation serving as evidence for some purpose. We can also say that the information it provides is presented in such a way that the producer of the document becomes able to convey this information to its users/readers, in an intelligible way. This again means that producer and reader use shared representation rules for the information.正則表達式

蘇珊娜(1894—1989)奠基現代信息科學基礎上的先驅角色。在她題爲(「什麼是文檔?)她將文件定義爲支持事實的證據;保存或記錄的物理或符號符號,用於表示、重建或演示物理或概念現象。所以,一個文檔記錄了一些東西,它是一種表示,做爲某種目的的證據。咱們還能夠說,它所提供的信息是以這樣一種方式呈現的,即文檔的製做者可以以一種可理解的方式將該信息傳達給其用戶/讀者。這再次意味着生產者和讀者使用信息的共享表示規則。算法

Compared to oral communication, the main difference is the preservation of the representation, so that the consumer of the information does not need to communicate directly and immediately with its producer. The most ancient and well-known document type is of course the written document; the introduction of writing was of such importance for mankind that historians usually consider that history starts at that moment, when knowledge of the past can be recovered from written records.網絡

與口頭交流相比,主要的區別在於保留了表達方式,使得信息的消費者不須要直接、即時地與信息的生產者進行交流。最古老和最著名的文獻類型固然是書面文獻;對人類來講,文字的引入是如此重要,以致於歷史學家一般認爲,歷史始於那個時刻,那時能夠從書面記錄中恢復對過去的認識。併發

n Chap. 1 (A Brief History of Documents and Writing Systems), Henry Baird introduces us to writing systems and briefly reviews the history of written documents. Throughout the centuries, these documents have been physically produced on various materials, using many different writing or printing processes, until this century’s documents which are very often originally available in electronic format. Elisa Barney Smith reviews the evolution of these creation processes and equipment in Chap. 2 (Document Creation, Image Acquisition and Document Quality). She also introduces us to the numerous acquisition processes for converting physical documents into images for further processing by appropriate software tools.app

在第一章(文獻和書寫系統的簡要歷史)中,亨利·貝爾德向咱們介紹了書寫系統,並簡要回顧了書寫文檔的歷史。幾個世紀以來,這些文件一直是在各類材料上實際製做的,使用許多不一樣的書寫或打印過程,直到本世紀的文件,這些文件最初經常以電子格式提供。Elisa Barney Smith在第二章(文檔建立、圖像採集和文檔質量)中回顧了這些建立過程和設備的演變。她還向咱們介紹了許多采集過程,將物理文檔轉換爲圖像,以便經過適當的軟件工具進行進一步處理。electron

When people hear about document image processing, they probably think first and foremost of optical character recognition (OCR). But in the same way as children do not only learn to decipher characters, but progressively learn to understand complete documents, document analysis systems also have gone much further than just OCR. This evolution from character to full and complex documents is presented by Henry Baird and Karl Tombre in Chap. 3 (The Evolution of Document Image Analysis).ide

當人們據說文檔圖像處理時,他們可能首先想到的是光學字符識別(OCR)。但一樣地,隨着孩子們不只學會了破譯字符,並且逐漸學會了理解完整的文檔,文檔分析系統也已經遠遠超過了OCR。亨利·貝爾德(Henry Baird)和卡爾·湯姆佈雷(Karl Tombre)在第三章(文檔圖像分析的演變)中提出了從文字到完整複雜文檔的演變過程。工具

A common, fundamental toolbox for all these document analysis systems is that of image processing algorithms applied to document images. Image processing as a whole would deserve a full handbook on its own, but in Chap. 4 (Imaging Techniques in Document Analysis Processes), Basilis Gatos presents an overview of the most fundamental image processing methods needed in any document processing and recognition system.佈局

全部這些文檔分析系統的一個共同的基本工具箱是應用於文檔圖像的圖像處理算法。做爲一個總體,圖像處理自己應該有一本完整的手冊,但在第4章(文件分析過程當中的成像技術)中,Basilis Gatos概述了任何文件處理和識別系統所需的最基本的圖像處理方法。性能

1. A Brief History of Documents and Writing Systems

Contents
Introduction. ........................................................................................ 4
The Origins of Writing............................................................................. 4
Writing System Terminology. ..................................................................... 4
Reading Order and Segmentation. ................................................................. 5
Types of Writing Systems. ......................................................................... 7
Origins of Writing Media.......................................................................... 8
Punctuation.......................................................................................... 9
Conclusion. ......................................................................................... 9
Cross-References. .................................................................................. 10
References. .......................................................................................... 10
Further Reading. ................................................................................ 10
摘要

This chapter provides a review of the history of written language, with emphasis on the origins and evolution of characteristics which have been found to affect – and in some cases continue to challenge – the automated recognition and processing of document images.

本章回顧了書面語言的歷史,重點介紹了影響文檔圖像自動識別和處理的特徵的起源和演變,在某些狀況下,這些特徵會繼續受到挑戰。

簡介

高爾豐富的書寫歷史說明[2]清楚地代表,除了手寫或機器印刷在平面上的文字外,人類的交流還包括巖畫(許多史前人的做品)、留言棒(澳大利亞土著人的做品)、用點和線標記的豆子(印加文)、奎普文(用頭髮或棉線打結的做品);印加加加中國、非洲、波利尼西亞等國)、萬普姆帶(北美土著)、科裏貝殼組(尼日利亞約魯巴)和理貨棒串(託雷斯海峽羣島)。儘管以上這些都尚未被計算機自動讀取,但能夠想象,文檔圖像分析研發界有朝一日會嘗試使用它們。

書寫的起源

高爾區分了「思想寫做」(即「直接傳達思想」,例如「樹的畫」是指「樹」)和「聲音寫做」(即經過一組傳統的符號使語音可見)(桑普森稱之爲「聲門圖」系統[7])。帕克斯[6]將西方早期語言與寫做的關係描述以下:

在古代,書面文字被視爲口頭文字的記錄,文本一般被大聲朗讀。但從六世紀開始,人們對書面語的態度發生了變化:書面語被認爲是經過眼睛直接向大腦傳遞信息,塞維利亞的伊西多爾(約560-636ce)能夠表示對沉默閱讀的偏心,沉默閱讀隨後成爲一種規範。

丹尼爾斯和布萊特1996年對世界寫做系統的調查列出了50多個主要家庭,其中一些家庭有十幾個或更多的子家庭。書寫習慣(尤爲是語音)的巨大多樣性代表,許多書寫習慣在很大程度上是武斷的文化發明:固然,這種多樣性仍然是自動識別面臨的最使人困惑的技術挑戰。寫做系統進化的關鍵階段也沒有被徹底理解,並且可能一直如此。或許正由於如此,目前的寫做體系顯得很是混亂:幾乎沒有什麼普遍適用的規則是顯而易見的。即便是有着悠久歷史記錄的系統,尤爲是中國的系統,也傾向於挑戰徹底系統的分析。相似的悲觀主義,毫無疑問被現代語言學的進步所限定,可能被擴展到數千種已知的語言中,其中只有一小部分享有書寫系統。(2009)SIL族羣(4)列出了6909種現存的人類語言,估計有7000到10000種不一樣的生活語言存在。

書寫系統術語

首先,簡要回顧一下用來描述書寫系統外觀的術語,就像現代文檔圖像分析系統一般作的那樣,從一張紙(一個「頁面」)的圖像開始,並在其上墨跡信息。此圖像可能包含文本區域和非文本區域的混合。文本區域一般包含組織成文本「行」的文本塊(或「列」),文本「行」能夠(根據語言)水平或垂直運行(不多以螺旋方式)。在一個塊中,文本行一般是從上到下(對於水平行)和從左到右(對於垂直行)讀取的;這種選擇彷佛是任意的,但有趣的是,它適用於許多古代文本以及幾乎全部現代文本。文本行內的閱讀順序也因語言而異;在一些古代文本中,順序從一行切換到另外一行,所以若是一行從左到右閱讀,那麼下一行從右到左閱讀(這是一個技術術語boustrophedonic,來自希臘語「如牛犁」)。文本行包含語言中單詞的符號圖像(和標點符號,討論以下)。幾乎在世界上,這些詞的書寫順序與人們說話的順序是同樣的。

從新回顧基本術語,將文本行圖像分割成哪些較小的元素?在全部西歐(和許多其餘)書寫系統中,「詞空間」慣例有助於將文本行分解爲「詞」圖像;儘管,這些圖像可能包含標點符號,所以不能直接映射到語言文字上。即便在這些系統中,使用純粹的「幾何」線索(例如經過估計局部類型大小來縮放分隔字符的水平空間的分佈)也很難可靠地實現自動分割:歧義一般須要符號識別的幫助,甚至須要更高級別的解譯。

閱讀順序與切分

因爲口語中的詞是按時間順序出現的,幾乎全部的語音書寫都是按空間線性排列的。相比之下,大多數寫做媒體都是二維的(至少如此),可是從語音中複製出來的線性慣例不多利用這些額外的維度。一些「原始的」寫做,如桑普森所討論的尤卡希爾信息,不編碼任何固定的語序,所以能夠在多種敘述中「大聲朗讀」;一些現代的「超文本」寫做,如數學和音樂,擴展到一個維度之外(本書稍後將對此做更多介紹)。一旦一頁文本被分解(分割)成塊和文本行,並推斷出預期的閱讀順序,識別就面臨一類很是簡單的線性化問題

獨立於文獻分析界,語音識別(更普遍地說是計算語言學)研究與開發界從20世紀70年代開始發現了一類動態規劃優化算法在分析時間序列問題中的威力。依賴於線性排序效率的方法包括文法、馬爾可夫模型、隱馬爾可夫模型、動態時間規整、有限狀態傳感器等。這些算法的進步,革命性地改變了其餘領域,在20世紀90年代早期以前,在文檔分析領域的滲透是緩慢的;可是這個過程如今已經開始了。大多數動態規劃方法的效率取決於適用於許多一維問題但不多推廣到更高維的特殊性質(一般稱爲「最優子結構」,早期也稱爲「最優性原則」),這一點並無獲得普遍的認識。從這個意義上說,許多二維(和更高維)優化問題彷佛在本質上更難解決:這可能部分是由於佈局分析方法的發展相對文本識別方法慢。

其餘語言,尤爲是主要的現代東亞語言,缺少文字空間的約定,所以下一個層次的切分必須與單個符號直接相關。在一些書寫系統,如阿拉伯語中,一個語言單詞被寫爲一系列間隔開的符號組(「子單詞」):真言空間與詞間斷句一塊兒存在,從而使分割複雜化。許多手寫體都是草書,其中一個單詞中的許多(或所有)符號是相連的。即便在一些機器印刷系統中,如阿拉伯語,書法的影響仍然很強,字體的設計模仿謹慎但仍然是草書。

很天然地,假設全部這些依賴於語言和書寫系統的策略都被建模並實現爲一種分割算法,可以從文本行的圖像中檢測和隔離每一個單獨的符號,這些符號一般是書寫語言的基本單位,例如字母表容許的字符形狀或音節

然而,語言符號和符號圖像之間的一對一直接映射的例外狀況出人意料地頻繁。連字(一般是有向圖和縮略詞)將兩個或多個語言符號合併成一個書寫字符。在一些書寫系統中,例如中世紀的手稿,容許的縮略詞的數量能夠超過基礎字母表中的字母數量。對文檔識別工程的影響多是使人望而生畏的:實際上,爲了圖像識別的目的,字母表已經擴展了,也許是一個很大的因素,增長了爲每一個類收集標記樣本的工做。更嚴重的多是,在文件圖像中發現的「字符」集合在一開始多是未知的;變化多是在飛行中發現的;什麼是合法的變化(不是印刷錯誤或曲解)可能不清楚;可能須要諮詢專業的歷史學家。從這個意義上說,許多書法書寫系統,甚至在西方,都是「開放的」,缺少一套固定的傳統字體。

一個被正確隔離的符號的圖像被稱爲一個圖(一些權威人士更喜歡術語graphemes,這裏稱之爲符號)。如今考慮從文檔圖像中分割的全部圖的集合;字符分類器的任務是爲每一個圖分配正確的語言字符標籤(在壓縮的狀況下,正確的輸出是一系列語言標籤)。如今,因爲打印(例如,文本大小、墨跡、紙張質量)、手寫、成像(點擴展功能、掃描分辨率等)的變化無常以及甚至在分割樣式上的變化,同一符號的圖形能夠預期在細節上有所不一樣。固然,這種變化是文本圖像分類器設計的主要技術挑戰。

但因爲其餘種類的變化,還有更深層次的挑戰。在某些書寫系統中,容許使用多個形狀來表示單個符號:這樣一組視覺上不一樣但語言上相同的字符形狀有時稱爲異體字。做爲分類器訓練的一個實際問題,底層形狀可能很是不一樣,所以必須將它們分爲不一樣的類:在這種狀況下,圖像識別所需的類不能一對一地映射到語言類上。可是,從另外一個角度來看,在訓練過程當中,不能在不一樣的同種異體圖像之間進行歸納能夠被判斷爲可訓練分類器技術不足的症狀,若是這種批評是合理的,那麼該技術難道不能在諸如圖像質量的極端等其餘變體之間進行歸納嗎?事實上,文檔識別工程師常常感到有必要對訓練集的標記、類的劃分和組合、或將它們組織成樹結構進行手動調整(語言學家可能認爲這是不相關的、分散注意力的干預措施)。嘗試分類樹(CARTs)的一個動機是但願最小化這種多是開放的手動「調整」;不幸的是,訓練好的樹老是在計算上使人望而卻步或是弱啓發性的。請注意,因爲書寫系統和排版慣例的某些「開放式」特徵,這些問題甚至可能出如今高科技文化中的現代語言中。

此外,還有一個風格上的問題(和承諾):我的的寫做個性就是一個例子,機器印刷中的字體也是一個例子;圖像質量也能夠做爲一種風格來考慮(稍後將對此作更多介紹)。

書寫系統類型

哈里斯1986年的寫做系統史[3]試圖將世界寫做系統中使用的各類符號(他稱之爲「符號」)分類以下:

字母符號:一組符號,表明語音中出現的一整套輔音(如「s」)和元音(如「a」),如英語、最古典和現代的西方文字(可能「最終來自公元前2千年下半葉的北閃米特字母」)

音節:一組符號,每一個音節一個(短輔音元音或輔音輔音組合),例如「ka」(日語)

符號學:一組「表示單詞但不表示發音」的符號,如用「$」表示「美圓」,在整個中國漢人系統中常用(日本和韓國也使用)

象形文字:以簡化圖片的形式表示其所表明的事物的符號,如用射線表示太陽的圓圈,也能夠用某些埃及象形文字來表示

表意文字:符號「表明信息的總體概念,而不是它的任何特定形式」,如在箭頭符號中表示方向

儘管這個分類法很簡單(仍然有點爭議),但對於本章的目的來講,它應該足夠清楚。文檔識別的主要含義是:(a)字母、音節和符號系統幾乎支配了全部現代(和許多古代)腳本;(b)象形文字和表意文字系統的識別相對被OCR社區忽略(商業文檔中的「徽標」識別除外),儘管隨着「城市景觀場景」的挑戰愈來愈受到重視,包括交通標誌的檢測、隔離、識別和解釋問題,以及迅速增加的「國際」標誌和符號,這種狀況可能會發生根本性的變化;(c) 字母表每每比音節表小得多,音節表又比符號集小得多,這對監督培訓的工程成本有重要影響;和(d)雖然字母表和音節表一般是「封閉的」(完整的和固定的),但符號系統每每是「開放的」(不完整的,可自由擴展)。

很難把書寫系統中全部的變化都歸納出來。然而,在幾乎全部的語音書寫系統中,一個強烈的傾向是對單個符號圖像使用緊湊的「物理支持」:也就是說,它們都傾向於在近似大小相等的小的非重疊的細胞中進行擬合。

文檔圖像識別的含義是使人望而生畏的:爲了處理一種新的語言,必須克服幾個障礙,包括:對所使用的全部字形的描述,字形樣本的收集(每一個字形有許多樣本,每一個不一樣樣式有更多樣本),頁面佈局慣例的分析,積累字典(詞彙或詞法分析器),至少。其中一些障礙可能須要專業語言學家的幫助。

寫做媒介的起源

早期的書寫材料種類繁多:高盧突出了石頭、樹葉、樹皮、木材、粘土、皮膚、動物骨骼、象牙、竹子、玳瑁和許多金屬,尤爲是銅和青銅。雖然相對容易腐爛,但一塊埃及木製書寫板從公元前2000年左右就保存下來了。公元前1700年左右,「一些最先的中國文字」就保存在「甲骨文」的骨頭上。蠟制書寫板,方便重複使用,最先起源於公元前8年,被古希臘人和羅馬人普遍使用;然而,羅馬法律是經過在門上展現的銅板上的銘文公佈的。

某些書寫媒介的生產規模顯著增加,甚至在古代,從美索不達米亞的粘土板開始,一直到埃及的紙莎草。在南亞和東南亞,直到近代,棕櫚葉一直是主要的培養基。大量的棕櫚葉保存下來,其中許多包含耆那教、佛教和印度教經文:這些已經成爲嚴肅的文檔圖像識別研究的對象。全世界對保存和獲取歷史文獻的興趣迅速增加,彷佛不多有這些神祕的文獻類型沒有受到影響,並揭示了許多新的技術挑戰。

請注意,上述三種書寫文化中的每一種都聚集了大量的文件,這些文件顯然旨在在材料、大小和外觀上高度統一,包括符號的書寫順序和形狀。大量受過統一訓練的專業文士幹部,證據確鑿。現代寫做風格的普遍多樣性——其實是豐富的創造性變化——今天人們可能會想固然地認爲這不是早期社會的常態,它只隨着工業時代的到來而加速。當今文檔識別研究中的一個重要技術趨勢是對樣式意識方法的興趣,這種方法能夠利用輸入圖像上已知(或僅僅是猜想)的一致性。書面語料庫越老,就越有可能以統一的風格進行構建:所以,現代風格意識方法在應用於前現代文檔時可能會特別有效(甚至使人驚訝)。

另外一個重要的含義是,每一種媒介均可能,並且每每會影響寫做風格的演變。例如,因爲雕刻(鑿)大理石所特有的技術限制,在記念性的古典碑文(例如具備高度影響力的圖拉真柱)中引入了襯線。襯線進入現代的生存表面上是因爲美學,儘管人們能夠說它們也有助於易讀性。

一些寫做材料(並且仍然)比其餘材料要貴得多。相對持久的媒介(如牛皮紙)的花費推進了精心設計的中世紀抄本慣例的發展,以節省空間,包括大量簡潔的縮略詞和變音符號。

標點符號

帕克斯在1993年進行了大量的圖解研究[6]代表,至少在西方,到了中世紀,

標點符號成爲書面語言的重要組成部分。它的主要功能是解決文本中的結構不肯定性,並表示語義意義的細微差異::。

然而,標點符號的功能卻不多受到古典甚至現代計算語言學家的關注。一個例外是Sproat 2000年的正字法形式理論[8]包含了幾個現代書寫系統,包括俄語、漢語和韓語:他的主要目的是分析編碼文本語料庫,以便驅動(控制)一個可理解的文本到語音合成系統;他指出,這須要在「淺」和「深」兩個層次上創建有限狀態模型;他還指出,這種完整的模型不太可能從純統計推斷的訓練數據中學習。Nunberg 1990年深思熟慮的研究[5]代表,英語中的標點規則比最早進的OCR機器中使用的正則表達式要複雜得多。

結論

在書寫系統的歷史上,一些對文檔圖像分析研究和開發社區具備潛在重要性的明顯趨勢,據所知,沒有獲得任何形式的持續學術關注。目前做者還不清楚對黑白(雙層)文檔早期和持續占主導地位的緣由的仔細研究。儘管人們對某些(主要是西方和亞洲)字母(以及音節、表意文字系統等)的演變了解得不少,但有關從開放符號集到有限和固定符號集的關鍵轉變的細節卻經常缺失。(有趣的是,將這一事實與全部現存語言中詞典的持續開放性進行對比。)在大多數有着悠久歷史的書寫系統中,符號圖形已經從複雜的形式穩步發展到相對簡單的形式。在活生生的記憶中,漢文書寫系統經歷了對更小符號集和簡化字形的戲劇性改進。一個如今看來異常甚至尷尬的事件發生在早期OCR系統的製造商對處理天然出現的印刷文本感到絕望,併發明瞭OCR-A和OCR-B等「OCR字體」以使他們的問題更簡單,而後認真地(若是沒有效果的話)提出了普遍的商業用途。

2 Document Creation, Image Acquisition and Document Quality

Contents
Introduction. ........................................................................................ 12
Document Creation Materials...................................................................... 12
    Writing Substrates. ............................................................................. 12
    Inks. ............................................................................................. 17
Writing and Printing Processes. ................................................................... 20
    HandHeld Writing Instruments. ............................................................... 20
    Machine Printing ............................................................................... 23
Acquisition Methods. .............................................................................. 39
    Flatbed Scanner and Fax Machine Acquisition............................................... 39
    Cameras and Mobile Devices. ................................................................. 44
    Video............................................................................................ 46
    Other Specialty Modes. ........................................................................ 47
Document Quality.................................................................................. 48
    Factors Affecting Document Quality.......................................................... 48
    Effects of Document Quality on Analysis and Recognition Results. . .... .... ..... .... .... .. 50
    Models of Document Degradations. ........................................................... 51
Conclusion. ......................................................................................... 59
References. .......................................................................................... 60
Further Reading. ................................................................................ 60
摘要

本文概述了用於建立文檔的材料、建立打印文檔的方法以及獲取該文檔的數字版本的方法。介紹了當前和歷史的方法、材料和過程。除此以外,還討論了圖像降級可能進入進程的位置。全部這些都與這些方面如何影響文檔識別能力有關。

簡介

文檔能夠手工建立,也能夠經過機器建立。在這兩種狀況下,有幾個因素影響最終外觀,包括含量、顏料、將顏料轉移到紙張上的儀器以及紙張自己。人或機器如何感知文檔外觀取決於文檔是如何得到的。紙上被認爲是好質量的東西,當直接被人眼接收並被人腦處理時,當數字化後再在監視器上觀看時,並不老是被認爲是好質量的。一樣,一我的認爲原始或數字化版本的良好感知質量並不老是可以使高精度機器識別文檔內容的質量。

爲了幫助解釋文檔源與其質量之間的關係,本章肯定了質量能夠下降的鏈接點,如其所述:

•材料——材料,如紙張和墨水;人員:以及用於建立文檔的機器。

•流程-手工或機器建立打印文本的當前和過期流程。特別是過期的過程是爲技術檔案工做者在歷史文獻收藏中看到。

•獲取方法——將文件轉換爲數字形式的方法,有助於文件圖像的自動處理和識別

•模型-記錄生產模型、質量度量以及質量如何影響識別結果。

文檔建立材料

這是對一些材料的概述,這些材料隨着時間的推移被用於建立文檔,並顯著地塑造了文檔的外觀。材料包括文件出現的基底,一般被認爲是「紙」的一種形式,以及顯示書面信息的墨水。紙張和墨水的選擇部分是歷史性的,由可用的材料和技術決定,部分是由書寫或印刷過程決定的。將油墨轉移到承印物上能夠用書寫工具手工完成,也能夠用印刷機完成。圖2.1包括不一樣材料和書寫和打印方法的示例,以及它們首次引入的時間。每個都引入了一個影響最終文件外觀的新變量。

書寫基底

書寫基質是書寫表面。使人驚訝的是,儘管自從最先的人類開始寫做以來,已經有不少人開始寫做,但許多基礎的基礎並無改變那麼多。可供研究的最古老的文字之因此被保存下來,是由於它是在石頭上書寫或雕刻的,或者是由於它被印在泥板上。雖然這些材料壽命長,在某些地區也很豐富,但並不特別便於攜帶。幾乎任何能保留刷子或鋼筆痕跡的便攜式物質都被用做書寫基質。這包括樹葉、樹皮、木板和布。在中國,人們在竹竿上發現了古老的文字,在印度,人們在樺樹皮和棕櫚葉上發現了古老的文字。瑪雅人用無花果樹的內部樹皮在「紙」上寫字,樹皮上覆蓋着一層薄薄的石膏狀物質,文字被畫在「紙」狀的灰泥畫上。和今天的書同樣,這些書被扇形摺疊成書的形式。

從紙莎草到羊皮紙和紙

最著名的古代書寫材料是紙莎草,現代的文字紙就是從紙莎草中衍生出來的。早在公元前3500年,埃及人就用紙莎草來造紙。紙莎草是一種叫莎草的蘆葦。去掉外皮,露出被壓扁的柔軟的內髓,並以直角重疊層鋪設條帶。這是經過敲打髓部直到植物組織破裂,並從組織的汁液造成一種膠水,將帶在一塊兒。材料在壓力下乾燥,一面拋光,造成一個光滑的表面,在上面寫字。標準的書寫單元,或者咱們今天認爲的「頁面」,是由其中一個單元的大小演變而來的。其中的幾個單元(大約20頁)是經過將一個單元的邊緣重疊到另外一個單元的邊緣,並以相似的方式將這些邊緣粘合起來造成一個卷,這個卷被稱爲拉丁語單詞「to roll」的卷。每一個捲包含的信息大約至關於一本現代手寫書的7到10頁。單詞book來自港口的名字Byblos,在鐵器時代晚期希臘人經過它進口紙莎草

羊皮紙是一種書寫材料,由拉伸和未經編織的動物皮製成,特別是小牛、綿羊或山羊。雖然皮革自公元前2000年起就被用於寫做,但它儲存得並很差,只能寫在一邊。羊皮紙在公元前2世紀的一種方法被開發出來,容許兩面都用來書寫,但裏面的一面有一個更光滑的表面,羊皮紙就成爲了書寫的經常使用材料。在歐洲,從公元四世紀到文藝復興和紙的引入,它成爲主要的書寫載體。用小牛或山羊的細皮製成的羊皮紙叫作牛皮紙。隨着羊皮紙的使用,書寫材料再也不像今天的印刷書籍那樣被捲起來,而是裝訂成冊。爲了印刷,拉丁聖經須要500多張小牛皮。製做書籍所需的獸皮數量使它們至關昂貴;所以,從新使用羊皮紙變得很常見。墨水是從羊皮紙上刮下來的,或者筆跡是以直角書寫的,以便從視覺上區分新的筆跡和舊的筆跡。有了這種再利用的書籍被稱爲翻版,從希臘語「再刮一次」。即便有了這種再利用,依靠羊皮紙做爲承印物的書籍產量也有限。

咱們今天所認爲的紙起源於公元一世紀的中國。中國人將造紙的過程保密了許多世紀,直到八世紀襲擊了阿拉伯城市撒馬爾罕,阿拉伯人俘虜了一些擅長造紙的中國人。隨着阿拉伯人在歐洲的擴張,造紙業隨之向西移動。歐洲第一家造紙廠於公元1100年在君士坦丁堡創建,造紙術一度在歐洲迅速傳播,直到14世紀纔在歐洲各地創建起來。在歐洲引進紙張致使書籍產量的增長,同時讀者也在增長。

紙張生產

紙的生產首先是在水中把植物纖維切碎並還原成紙漿。一層薄薄的紙漿鋪在篩子上,水被排出,造成毛氈。紙漿纖維被磨光並乾燥。過程差別致使了現有論文的差別。紙是用手工方法生產的,已經有好幾個世紀了,但這限制了紙張的數量或大小,而紙張能夠在任何一次生產過程當中生產。第一種機械化造紙工藝是1798年尼古拉斯·路易·羅伯特發明的,1805年亨利和西利·福德林將其商業化。

最初,造紙用的纖維主要由亞麻、黃麻、亞麻和大麻製成。從布破布中提取的纖維在17世紀是一種常見的來源。由棉纖維製成的紙叫作碎布紙。現在,這些紙張一般用於製做高質量的文件和鈔票。18世紀開始試驗使用稻草纖維,19世紀英國常用埃斯帕託草。開發了一種漂白工藝,能夠用有色纖維製成白紙。從19世紀中期在薩克森州開始,大多數現代紙是由樹纖維素製成的,發現這是一種合適的紙張來源,大大增長了紙張供應。木材經過機械或化學方法還原成紙漿。磨石間木漿的機械研磨引入了許多雜質,下降了紙張的質量。木質細胞壁是由木質素填充的纖維素網絡構成的。機械研磨不能去除木質素,所以產量更高,但隨着時間的推移木質素會使紙張變黃,使其變脆。另外一種方法是添加蘇打和硫酸鹽等化學試劑,以分解將細胞結合在一塊兒的木質素。若是化學試劑是苛性鈉,柔軟的蓬鬆纖維有利於封面和書寫紙張。亞硫酸氫鈣或亞硫酸氫鎂能產生更堅固或更堅硬的纖維,從而製造出更適合印刷的紙張。隨着時間的推移,這些酸會致使紙張和墨水的變質,因此硫酸鈉是一種替代品,它能使紙張變得很是堅韌。化學制漿中的纖維比機械製漿中的長,所以,紙張會更結實。

無酸紙的pH值爲中性,能夠用溫和的鹼(一般是碳酸氫鈣或碳酸氫鎂)中和木漿和生產過程當中產生的自然酸。它也不含木質素和硫。它適合存檔,由於它不會在很長一段時間內變黃或變脆。若是有足夠的鹼性儲備,這種紙可能能保存1000年。

直到十八世紀晚期,紙才基本上被鋪好。纖維被放置在一個有長的平行鏈節的鏈狀表面上,偶爾被一個垂直的間隙打斷。這種模式能夠在最後的論文中看到。在十八世紀,爲了更好的印刷,編織紙被髮展得更平滑。編織的金屬絲網輸送紙漿,紙張的紋理再也不廣泛。今天,編織紙被認爲是一種更便宜的紙。水印,也被稱爲紙張標記,是有意壓入穀物的圖案。它們在十三世紀開始出如今紙上以代表起源。

廢紙能夠回收利用,代替原始的木材做爲紙漿的來源。紙張必須粉碎,而後返回紙漿狀態。一路上墨水必須漂白掉。當紙張返回紙漿時,纖維的長度減小了。這下降了用這種紙漿生產的紙張的質量。所以,它一般與原漿混合。

整理程序(Finishing Procedures)

紙張的表面特性影響着書寫痕跡的視覺特性。墨水既能夠放在紙纖維上,也能夠被紙纖維吸取。歐洲人習慣於在羊皮紙上使用鵝毛筆,他們須要一種結實、耐刮擦、不易吸取的紙。施膠是在紙張上加入明膠、松香、澱粉、樹膠或明礬,使紙張更硬,吸水性更低,從而抵抗水性書寫墨水中的水。漿紗能夠在紙片造成後,經過盆式漿紗,把紙放在明膠浴中,基本上用一層薄薄的膠水覆蓋。另外一種方法是,在紙張成形以前,在加工過程當中,經過發動機施膠,紙漿與施膠材料混合。盆形紙比發動機上漿質量更高,由於上漿材料位於最有效的位置,但也更昂貴。上漿使紙張經久耐用,紙張的兩面均可以用來印刷。

有好幾種紙飾面。它們一般是顏料或載體(粘合劑)的塗層,如碳酸鈣或瓷土。塗層能夠產生啞光(暗或啞)、半啞光或光澤飾面。紙最初是用粘土刷塗的,以產生一個適合於精細篩選半色調的表面,用於最優質的攝影複製。機器拋光會產生更光滑的表面,一般用於雜誌。銅版紙一般是白色的,有文字重量。光澤度會致使印刷時網點增長較少,由於油墨不會擴散太多。未塗布紙有白色和彩色兩種版本。藝術用紙是一種上釉的紙,塗上一層瓷土,而後捲起來,使其很是光滑,以便更好地打印插圖文檔的半色調/屏幕。然而,瓷土塗料與紙張中的酸發生反應,使紙張變脆,褶皺很快就會開裂。1687年紙張首次添加了着色,1770年首次出現了機器刻線。

壓延是一種經過一系列鋼卷使紙張得到光澤或增長表面平滑度或不透明度的精加工操做。最小壓延產生蛋殼或古紙,它有一個粗糙的紋理,是很是「不眩光」,這能夠增長可讀性。超級壓光紙是經過在熱輥和冷輥之間反覆軋製紙張而獲得的一種光滑光亮的表面。機械拋光紙有至關普遍的壓延和用於雜誌,由於完成使印刷複製很是精細的半色調。

紙張分類、用途和質量

紙張生產材料和工藝影響紙張質量。紙張選項會影響它們的用途、特性和質量。今天買紙要考慮三個因素:等級、白度和不透明度。高級紙比其餘紙具備更精細的平滑度、白度和更大的不透明度。此外,還有四種基本的紙張分類須要考慮:債券、書籍、封面和卡片紙。邦德紙(Bond paper)是一種低檔紙,在大多數辦公室用於印刷和複印。邦德紙有半硬表面,書籍紙有多種紋理。粗糙的紙張極可能會有油墨脫落,在最初的印刷過程當中,油墨從未接觸到紙張。墨水根據孔隙率擴散。填充材料,如白色粉筆、粘土和二氧化鈦,常常添加到紙漿中,以使其具備更好的不透明性和表面光潔度。封面和卡片一般不用於製做文件(表2.1)。

表2.1紙張特性、用途和質量

紙張按厚度分級。在北美和英國,這是經過測量一卷紙的重量來表示的,它是按照該等級紙的基本尺寸切割的。一個ream有500頁,但在過去,ream有480-520頁。粘合紙的基本尺寸爲17 22英寸。對於書用紙來講是2538英寸;所以,20磅的膠紙厚度至關於50磅的書用紙。在歐洲,紙張分級要簡單得多,使用的重量單位是克每平方釐米(g/m2),有時縮寫爲gsm。20磅的粘合紙至關於75.2 gsm的紙張。紙張厚度有助於在垂直(正面)側看到背面印刷品的可能性。壓延可使紙張更緻密。填料的選擇也有幫助。印度紙是一種很是薄的紙,也是不透明的。

墨水

墨水能夠分爲兩類,一類是與手持書寫設備一塊兒使用的墨水,另外一類是機械印刷過程當中使用的墨水。墨水都是由着色劑(顏料和染料)、載體(粘合劑)、添加劑和載體物質(溶劑)製成的。所需的流動特性取決於油墨的印刷或書寫過程,由於油墨必須與轉移機構和乾燥或固定過程相匹配。油墨的範圍從薄和水到粘性,也存在於粉末或固體中。墨水必須自由流動,但不能擴散。它必須容易乾燥,不損害紙張或書寫工具。

公元前3000年左右的埃及人使用黑色墨水,由碳和紅墨水製成,由自然氧化鐵製成,懸浮在水中,用樹膠或膠水。抄寫員的圖片和抄寫員的象形文字老是包含一個矩形,其中有兩個圓圈,表明這兩種墨水顏色的井。大約在同一時間,中國人發明了一種相似的黑色墨水,由燈或懸浮在水溶性樹膠稀溶液中的炭黑製成。這種墨水被稱爲「印度墨水」,由於它是經過印度傳入西方的。這種墨水須要常常攪拌,使碳保持懸浮狀態。碳素顏料沒有浸入紙中,而是留在紙表面。這種墨水是穩定的,顯示最小的影響,年齡,但水溶性。

鐵膽墨發明於公元五世紀,從中世紀到二十世紀成爲傑出的書寫材料。它是由鐵鹽(一般是硫酸或硫酸鐵)、單寧(一種從橡樹癭中提取加侖單寧的酸)和膠水(阿拉伯樹膠,一種從相思樹上提取的植物膠)混合而成。隨着時間的推移,鐵質單寧成分會氧化墨黑,賦予它「藍黑墨水」的名稱。在十九世紀,靛藍染料首先被添加到油墨中,產生一種酸性較低的藍色油墨。

油墨中使用的着色劑能夠是可溶油中的有機或無機顏料。顏料的粒徑爲0.1-2米,呈懸浮狀。他們須要一個工具把他們綁在紙上。車輛也能夠塗上顏料,防止機械磨損(磨損),有時也被稱爲清漆。顏料有很寬的顏色吸取帶。染料在使用過程當中具備更高的顏色強度,產生更多的發光顏色,並在更普遍的顏色範圍。染料是溶解的有機化合物。自然染料最初用於染色,但在1900年左右被苯胺和合成染料取代。合成染料幾乎只在今天使用。染料能夠是透明的,並且顆粒比顏料中的小,但它們比顏料的耐光性差。大多數印刷方法使用顏料,但噴墨打印機主要使用染料。

粘合劑一般是溶解在礦物油中的樹脂。添加劑取決於印刷工藝並影響乾燥時間、流動性和耐磨性。載體物質是稀化劑,如礦物油或溶劑,如甲苯。

20世紀40年代,圓珠筆被商業化地引進,它使用一種粘性的快乾糊狀墨水。圓珠筆墨水的顏色來源於合成染料,包括甲基紫、維多利亞藍和固醇橙、黑松香、銅酞菁和其餘有機金屬染料。染料和顏料約佔典型圓珠筆墨水質量的25%。溶劑或載體由乙二醇等二醇的混合物製成。1950年之前,人們使用亞麻籽油或礦物油。該載體溶解或懸浮染料或顏料,並促進油墨在旋轉球表面的平滑流動。車輛一般經過蒸發快速乾燥,在紙上留下顏色。溶劑佔墨水質量的50%。剩下的25%的墨水是樹脂,它能夠是自然的或合成的材料,爲墨水提供粘度。

在20世紀70年代和80年代,毛氈筆尖和滾筒書寫筆被引進,它們使用一種液體墨水,經過筆尖傳遞並均勻地浸溼紙張。液體墨水比粘性墨水更能滲透紙纖維。膠筆墨水是80年代末推出的粘性墨水,但不到圓珠筆的程度。凝膠是以水爲基礎的生物聚合物,如黃原膠和黃芩膠,以及聚丙烯酸酯增稠劑。凝膠墨水含有懸浮在粘性介質中的顏料,所以它有較厚的顏料沉積層,使線條更大膽。顏料是不透明的,有多種顏色。顏料一般是鐵氧化物和銅酞菁。

除了液體和粘性墨水,墨水也能夠是固體。羅馬人用鉛棒做標記。當1564年在英國發現一個巨大的石墨來源時,人們還不知道它不是鉛的一個變種,直到今天這個名字仍然存在。鉛筆「鉛」由蠟、填料(粘土)、石墨粉和水混合並擠壓成棒狀,經乾燥和窯燒而成。結果是多孔的,能夠浸蠟使書寫更流暢。彩色鉛筆使用彩色顏料與粘土、蠟或脂肪酸、水和像黃芩膠這樣的吸取性物質結合。這些是乾的,燒成階段省略。鉛筆有好幾種硬度,這是因爲粘土和石墨的比例不一樣形成的。在歐洲,這些範圍從9H到H,F,H B,而後是1B到9B。H是一種硬鉛,在紙上沉積不多的碳,使標記很是輕,B是一種軟鉛,寫得很是黑。在北美,鉛的硬度主要用數字1-4表示,其中1對應於歐洲最多見的硬度1B;2對應於HB;3對應於H;4對應於2H。

機械印刷用油墨(Inks for Machine Printing)

打印機墨水和鋼筆墨水大不相同。油墨特性與機械印刷技術交織在一塊兒。本節主要介紹油墨,更多關於「機械印刷」一節中肯定的機械技術的細節。活版印刷油墨是粘性的,幾乎和油漆同樣。從歷史上看,它有時被稱爲黑色「糖漿」,由於它是由亞麻籽油煮成的,當它從生的脂肪中解放出來後,它達到了一種像膠水同樣的稠度。這種顏色來自於燈的黑色顆粒,這些顆粒通過研磨和從新研磨,直到它們很是細,不會阻塞最小字母的計數器。現代墨水是由溶劑和塑料的混合物製成的。這些墨水經過吸取到紙上而變幹。膠印是一種經常使用的印刷技術,它把一幅印出的圖像從印版轉移到橡皮布上,而後再轉移到紙上。它還使用高粘性糊狀墨水。它是由硬樹脂,有時是醇酸樹脂;植物油(亞麻籽,大豆,木材);或礦物油和顏料。凹版印刷油墨的粘度較低,使其成爲液體油墨,所以能夠填充凹版印刷單元。常見的溶劑是甲苯、二甲苯或石油溶劑、乙醇、乙酸乙酯或水(有時與乙醇混合)。

打字機用的墨水裝在色帶上。絲帶有時是紡織絲帶,絲帶的編織一般在字符圖像中可見,如圖2.4b所示。後來的發展致使了一種帶有可移動的黑色墨水膜的膠帶的生產,當施加壓力時,這種黑色墨水膜會轉移到紙上。這條帶子比墨帶更不容易幹。由於它把一層更均勻的墨水轉移到紙上,因此它產生的深色區域比色帶更均勻。它還防止了字體被粘住,由於字體只接觸到不帶墨水的膠帶背面(圖2.5)。

靜電覆印中使用的墨粉,如激光打印機或複印機中使用的墨粉,不只限於液體墨水,並且一般是碳基粉末混合物。顆粒一般包括磁性載體顆粒,一般是氧化鐵,以及熔融的聚合物,以將調色劑附着在紙張上。載體是可回收的,能夠是80米,而碳粉是4-8米。沒有載體的碳粉有12-20米直徑的顆粒。用於靜電覆印的液體調色劑將包含1~2微米的顆粒,並容許在打印過程當中經過混合調色劑直接混合顏色。

噴墨打印機須要一種低粘度的墨水,這種墨水必須通過過濾,這樣顏料團就不會堵塞打印頭噴嘴中的通道。噴墨墨水一般是水性的。它們傾向於滲透或滲透基板表面,並可能致使基板翹曲或波動。所以,推薦使用這種印刷方法的特殊塗布紙。一些噴墨紙會融化殘留在紙表面的蠟或塑料墨水。

書寫和打印過程(Writing and Printing Processes)

墨水能夠經過手持設備或更大的機器轉移到紙張上。本節介紹這兩類技術。這些書寫和印刷方法中使用的墨水在「墨水」一節中進行了說明

手持式書寫工具

在機器印刷出現以前,全部的書寫都是用手持式書寫工具完成的。手寫和手工打印的文檔都是經過將書寫工具滑動到書寫基底上來建立的。手持式書寫工具備不少種,如毛筆、筆尖筆、圓珠筆、氈尖筆和鉛筆。筆劃的外觀由筆尖的形狀決定,包括筆尖與書寫基底接觸時如何變形,以及墨水的特性,如液體類型和不透明度。

希臘人用金屬樣式在蠟板上作標記。蘇美爾人用蘆葦在泥片上留下印記。在印度北部,人們使用蘆葦筆,這致使了角形文字的發展,而在印度南部,人們使用金屬筆,更圓的文字形式演變成不撕紙。在埃及,書寫用的觸筆是一根蘆葦,蘆葦的末端被咀嚼成一種刷子,因此書寫與繪畫類似,但蘆葦的核心是墨水。公元前1000年,中國人用駱駝毛或鼠毛刷。中世紀的歐洲抄寫員用一種叫作pencillus(「小尾巴」)的小毛筆完成精細的工做,這就產生了pencill一詞。筆刷可能具備可變的筆劃寬度,而且可能在筆劃中有條紋。

 圖2.2金屬筆尖和書寫樣本

羽毛筆於六世紀傳入歐洲。鋼筆這個詞來自拉丁語penna,意思是羽毛。從大鳥(一般是鵝)身上切下的筆尖或筆尖。而後將其浸入墨水(一般是水性墨水)中,在空心軸中造成墨水庫。筆尖和紙張之間的壓力使墨水經過毛細管做用轉移到紙張上。經過使用,羽毛筆上的點會磨損,須要再次切割羽毛。這能夠由做者來完成,也能夠由常常「駐紮」在街道上提供服務並將「文具」一詞借給辦公用品的切筆人來完成。在19世紀,金屬嵌件(圖2.2)的發展,以消除不斷須要重複的筆尖。早期的金屬尖晶石存在缺少柔韌性和腐蝕性的問題,尤爲是使用鐵膽墨。當用金屬筆尖寫字時,筆尖上的點在下行程的壓力下常常分開,在紙上造成一個充滿額外墨水的凹槽,稱爲「筆尖軌跡」。筆尖的形狀影響書寫風格,反之亦然。寬筆尖的邊緣是平的,筆劃的厚度取決於筆劃相對於筆的角度。尖頭尖頭經過施加不一樣程度的壓力來分離不一樣數量的尖頭,從而改變行程寬度。自來水筆是筆尖筆,有一個內部的墨水庫。第一支成功的鋼筆是在1884年研製的。這就消除了筆跡上的逐漸褪色現象,由於筆跡筆的儲存器被清空了。

圓珠筆是當今最多見的書寫工具(圖2.3a)。圓珠筆的第一項專利於1888年頒發給一位名叫約翰·勞德的美國人。他把它們設計成能在粗糙的表面上寫字。改進了磨球和測量技術,使鋼筆結構良好。

機器印刷

雖然最終人類的手參與了全部的印刷過程,但那些手沒有直接參與的過程被認爲是機器印刷。機器印刷可分爲兩大類,衝擊和非衝擊。衝擊印刷是較老的技術,而非衝擊印刷已經啓用了電子的引進。隨着各類新的印刷方法的擴展,全部不須要印版母版的印刷方法都被歸類爲無影響印刷。

沖印

衝擊印刷使用四種主要的方法,使墨水到紙上。這些方法產生的文檔具備不一樣的圖像特徵。每一個人都有本身喜歡的紙張和墨水。每種類型的易用性和歷史背景的結合影響了每種類型的流行程度以及它們成爲文檔圖像分析主題的頻率。表2.2總結了衝擊印刷的方法和類型。

凸版印刷

最古老的機器印刷形式之一是將文字或圖像雕刻成木塊,而後在木版印刷的過程當中,將其上墨並壓在紙上。這種印刷品的第一批樣品可追溯到公元八世紀的中國。第一本印刷的書是公元868年在中國印刷的《金剛經》,先是卷軸,後是書籍。公元953年印刷了130卷經典著做。這種印刷方法在15世紀在歐洲很常見。每一個版塊上都刻滿了一頁印刷品。因爲木塊的生產是勞動密集型的,因此用這種方法印刷的材料量很小,可是木塊能夠長時間使用,每一頁均可以印不少份。

無衝擊印刷

 電子照相印刷

多音和彩色打印、抖動和屏幕

數字印刷、電子圖書和顯示器

採集方法

平板掃描儀和傳真機採集

照相機和移動設備

錄影機

其餘專業模式

文檔質量

影響文件質量的因素

文獻質量對分析識別結果的影響

文檔退化模型

結論

The Evolution of Document Image Analysis (文獻圖像分析的演變)

Contents
Introduction. ........................................................................................ 64
Isolated Character Recognition孤立字符識別. ................................................................... 64
Beyond Recognition of Isolated Characters: Exploitation of Context超越孤立字符的識別:上下文的利用. ... ... ... ... ... ... ... ... .. 66
From Words to Pages, from Pages to Structured Documents, and Onwards to
Non-textual Documents
從文字到頁面,從頁面到結構化文檔,再到非文本文件. ........................................................................... 67

Stubborn Obstacles to Document Image Recognition.文檔圖像識別的頑固障礙 ........................................... 68
Conclusion. ......................................................................................... 69
Cross-References. .................................................................................. 69
Notes................................................................................................ 70
References. .......................................................................................... 70
Further Reading. ................................................................................ 71

摘要

光學字符識別是計算機科學最先的應用領域之一。當時,人們指望機器可以很快地讀取任何文檔。歷史證實,這項任務比那更困難。本章探討了文檔分析與識別領域的發展歷史,從OCR到頁面分析,再到尚待解決的開放性問題。

簡介

第一臺計算機和計算機科學做爲一個領域出如今第二次世界大戰。一旦這個領域擴展到科學計算和國防應用以外,它的第一個用途就是光學字符識別(OCR)。當時,人們預計機器很快就能讀取任何文件。但很快就明顯,這方面的進展將比預期的要慢,並且應用程序和需求的巨大多樣性將使單字符識別不可能僅僅依靠改進的分數。一個郵政編碼的一個數字中的每個錯誤都會將一封信發送到錯誤的目的地,一頁文本中的五個字符錯誤一般足以增長OCR後編輯的巨大成本,當問題涉及到提取一個完整文檔傳遞的主要信息時,在不知道打字字體或手寫字體的狀況下,與破譯單個字符相比,分析全局文檔「場景」的挑戰要大得多。

本章並不僞裝提供了文檔分析系統如何演變的完整歷史,而是指出了這一演變過程當中的一些主要里程碑。

單個字符識別

Schantz在他的OCR歷史[1]中提到了1809年美國的一項幫助盲人閱讀的專利。到1870年,C.R.Carey用一組光電池來傳輸圖像,到20世紀初,P.Nipkow用「掃描盤」逐行分析圖像。1912年,艾曼紐爾·戈德伯格(Emmanuel Goldberg)發明了一種將打字信息轉換成電報信息的機器,1914年,埃德蒙·德阿爾貝(Edmund F.D'Albe)發明了一種手持式掃描儀,能夠將文字圖像轉換成聲音,以幫助盲人讀者閱讀。1931年,Goldberg得到了驅動模板匹配字符分類器的光學掃描儀的專利。直到20世紀50年代,「精確地將源模式與模板模式對齊的困難」限制了這種技術和許多相似技術的準確性

1951年,David Shepard演示了一臺OCR機器,它可以讀取由「標準打字機」打印的23個字母。與此同時,Jacob Rabinow改進了模板匹配,以便在一系列錯誤註冊等中搜索「最佳匹配」,並將字母表擴展到大寫和小寫。在20世紀50年代早期,技術進步主要依賴於更好的成像傳感器和控制傳感器和紙張的運動。識別方法包括「區域相關,特徵分析,[和]曲線跟蹤」;細化包括「噪聲濾波和]圖像預處理」。應用在50年代後期迅速擴展;大多數是定製設計的:1959年,一臺爲美國空軍制造的機器能夠同時讀取大寫和小寫字母數字,但只能用一種字體。甚至打字機字體在1954年也提出了一個挑戰,一個OCR製造商建議使用一種特別設計的57格字體進行普遍的標準化打印,以幫助OCR。

在20世紀60年代,打字應用迅速普及,儘管每一種應用都是通過專門訓練的,只能處理一種字體;然而,人們廣泛認爲,這項技術能夠在「幾乎任何一致造成的字符模式」上進行有效的高精度訓練一批文檔的格式:指望用戶將其輸入標準化。很快,顧客們就要求能處理各類文件的機器,包括各類字體。第一臺商業化的「多字體」機器出如今1964年;到了20世紀60年代末,這種爲美國軍隊定製的機器「讀取63%[:::.]無錯誤」一個高度異構的輸入流文件,其中包含30多種預處理字體的大寫和小寫字母。在20世紀60年代,全部OCR機器都是大型定製設備,處理大批量的數據,一般速度很是快。

20世紀60年代初,首次出現了有但願的手寫(非草書)漢字實驗。在20世紀60年代末,出現了用戶可培訓的OCR機器,當時市場上稱之爲(潛在的)「omnifont」;但這些機器不多有效。Rabinow的提案[2]清楚地反映了該技術面臨的技術障礙:

一我的對文檔的控制越多,閱讀機器就越簡單,成本也就越低。:::[這怎麼能作到?]規範紙張類型,紙張大小,打印質量,格式,字體。

業界對此呼之欲出,因而產生了兩種標準的OCR字體(OCR-A和OCR-B)。

到了20世紀70年代末,字符閱讀器獲得了其餘有爭議技術的補充,包括條形碼閱讀器和標記感閱讀器。20世紀80年代初,隨着傳真機的普及,市場發生了重大變化,高分辨率的平板文檔掃描儀變得能夠負擔得起,這些掃描儀與我的電腦相連。而後,OCR公司競相推出「我的OCR」,其中缺乏了預培訓和大多數類型的「控制」。OCR公司經過對大量(數以千萬計)來自幾十種字體的字符圖像進行大規模培訓,試圖實現他們所宣稱的真正的全字體識別系統。

1992年,Mori等人。介紹了OCR研究與發展早期的歷史回顧[3]。同時,George Nagy[4]預言性地批評當時依賴於對孤立字符圖像的準確識別的藝術狀態爲「耗盡」,並指出開發更大的上下文(包括文檔中的樣式一致性)和更普遍的多字符上下文分析(包括佈局上下文)的前景。Mori、Nishida和Yamada[5]後來總結了1999年孤立字符識別方法的最新進展。

孤立字符的超越識別:語境的開發

正如Nagy所指出的,若是但願機器像人類同樣閱讀,就必須超越孤立字符識別率的進步。事實上,咱們人類不只在一年級學習單個字母;咱們還學習閱讀和理解完整的文本,從表格中提取有意義的信息,並經過複雜的文檔(如會計報告、新聞文章、詩歌,甚至地圖和工程圖紙)相互交流。即便是手寫文檔,其中任何單個字符均可能很是難以破譯,也會變得有意義,由於咱們考慮了文檔的上下文。

這是從使用發送者和接收者都知道的語言來查看打印、打印或手寫文檔(如消息)開始的。所以,對書面對象的分析能夠考慮語言方面。

桑普森在他開創性的研究寫做系統[6]中指出

儘管如今潮流開始轉向了(1985),二十世紀的大部分時間裏,語言學幾乎徹底忽略了寫做。

所以,學術界對寫做語言學的嚴肅關注是最近纔出現的,當代出現了爲非專家使用的「通用」OCR機器。在學術語言學界,計算方法在20世紀70年代之前也一直是少數;即便在今天,OCR研究人員也很難找到語言學界願意並可以以隨時可用的數據和軟件形式分享其看法的同行。咱們認爲,這一事實反過來大大減緩了語言學家利用文檔圖像識別技術開發知識的速度。

自動生成天然語言文本的最先步驟之一是提供一種檢查單詞合法性的方法。最簡單的手段固然是或多或少詳盡的列表,或者扁平的詞典。在OCR系統中,最先的詞典上下文開發依賴於這樣的列表,並一直持續到如今。在20世紀70年代,計算機可擦寫詞彙的集合迅速加速,如今已接近飽和的信息技術產業所支持的語言的飽和;可是,一如既往地,許多遠程語言的服務不足,所以現代OCR系統的擴展,設計成經過提供詞典來廉價地從新定向到新的語言,可能會遇到重大障礙。

自動生成天然語言文本的最先步驟之一是提供一種檢查單詞合法性的方法。最簡單的手段固然是或多或少詳盡的列表,或者扁平的詞典。在OCR系統中,最先的詞典上下文開發依賴於這樣的列表,並一直持續到如今。在20世紀70年代,計算機可擦寫詞彙的集合迅速加速,如今已接近飽和的信息技術產業所支持的語言的飽和;可是,一如既往地,許多遠程語言的服務不足,所以現代OCR系統的擴展,設計成經過提供詞典來廉價地從新定向到新的語言,可能會遇到重大障礙。

然而,許多語言都有很強的屈折變化,所以出現了大量的詞彙變體:它們共同的特徵有時被稱爲詞幹,而這些變體一般由後綴、前綴和更復雜的重寫提供。拉丁語、西班牙語和俄語是極端狀況。對於這些語言中的大多數,能夠在計算語言學算法中捕獲全部或大部分屈折形態學規則,這提供了幾個好處:

1。更小的詞典,由於許多變體都變成了相同的規則。

2。容易輸入新詞,由於只需添加新詞的詞幹,它的全部屈折都會被覆蓋。

3。對新詞的識別,使之前從未見過的詞能被正確識別(經過派生詞法)。

4。更快的查找是一種可能性,儘管計算開銷,在一個等價的詞彙是難以管理的巨大的狀況下。

全部這些好處都有可能被OCR系統所利用

裏奇等人。[7] 本文對英語詞彙的這種形態結構進行了幾乎詳盡的分析,這就要求有一個「兩級」的規則語法改寫規則體系。他們提到,這種方法適用於包括芬蘭語、法語、德語、日語、羅馬尼亞語、古教會斯拉夫語和瑞典語在內的語言。不幸的是,像希伯來語和阿拉伯語這樣的閃族語言擁有「非鏈接」的形態,這須要更先進的模式。OCR系統的一個含義是,即便在今天,對於服務不足的語言來講,像「詞典檢查」這樣基本的語言上下文也多是不可行的,要取得進展可能須要專業的語言努力,甚至語言學研究。

從文字到頁面,從頁面到結構化文檔,再到非文本文檔

一件事是識別字符、單詞或句子;另外一件事是獲取文檔中的全部信息,如要由郵政部門處理的信件、銀行支票、填妥的表格或商業信函。除了字符和單詞識別以外,這還包括許多任務,特別是與文檔頁面的空間分析有關的任務,這其實是一個場景分析問題,以及佈局結構與該佈局所傳達的語義之間的映射。

該領域的早期工做涉及最多見的佈局。在20世紀80年代,經過研究小組設計的各類方法,提取出了能夠在書籍、報紙、期刊等中找到的矩形佈局,如IBM設計的遊程平滑算法[8],並用於報紙檔案分析系統[9],或者X-Y樹將一篇期刊文章分解成同質部分[10],如今仍然被普遍使用,如第5章(文檔分析中的頁面分割技術)所述。

在佈局和/或句法約束很強且衆所周知,而且對大量文檔的可靠性要求很高的特定類文檔也很早就受到了特別關注。所以,系統設計用於郵政自動化[11]或銀行支票識別(見第21章(郵政應用程序中的文件分析和支票處理),表格和表格(見第19章(表格和表格的識別))或商業信函。

也有必要超越文本,由於最通常意義上的文檔是人類相互交流的形式化方式,使用一種一般能理解的語言,也能夠包括圖形部分、圖像等。這致使了對地圖[12,13]、電氣圖[14]或工程的分析系統的研究圖紙[15]。若是這些早期的系統常常是有限的,爲一組狹窄的文檔進行微調,而且難以維護和擴展,那麼它們仍然有助於開發仍在使用的圖形識別的基本方法,如第章所述。15(圖形識別技術)、16(符號識別概述)和17(圖形文檔的分析和解釋)。

文檔圖像識別的頑固障礙

1982年,Schantz說「正確的字符識別率與源數據的質量成正比」[1]。1999年,Rice、Nagy和Nartker[16]發表了一篇對頻繁出現的OCR錯誤進行了大量說明的分類,並之前所未有的洞察力討論了這些錯誤的根源。質量的一個方面是,因爲打印和圖像捕獲,圖像質量降低[17]。

在文件圖像分析和識別發展道路上仍然存在的許多障礙中,讓咱們提到在咱們看來最難處理的障礙,所以在從此幾年中必須繼續予以注意

(a) 文檔圖像並不是老是以最佳和可控的方式捕獲,並且其質量每每過低。在某些狀況下,例如管理大量的遺產文件,能夠對掃描過程的分辨率做出決定,文件自己有時也會降級。以後的處理必須使用圖像自己,即便很明顯質量遠遠不能適應分析過程。圖像質量可能致使特定問題的其餘狀況包括視頻中的文本和由照相機或電話捕獲的文檔(見第25章(圖像和視頻中的文本定位和識別))。

(b) 許多識別過程依賴於須要訓練的分類方法。但並不老是可以處理足夠大的訓練樣本集,覆蓋分析問題的所有多樣性。對於非文本文檔尤爲如此。與此相關的是,爲了評估文檔分析系統的性能,一般很難得到足夠的地面數據。見章節。29(用於文檔分析和識別的數據集和註釋)和30(用於文檔分析系統評估的工具和度量)用於進一步討論這些問題。

(c) 咱們已經看到,語言工具是設計高效文檔分析系統的重要資產。但在許多語言中,這種工具缺少或沒有獲得充分開發。

(d) 沒有一個文檔分析系統能夠徹底自動化,這樣它就能夠做爲掃描儀輸出的後處理步驟。可是很難構建有效的用戶界面,很難將文檔圖像分析有效地集成到一個更大的工做流程中,甚至更難讓用戶接受文檔圖像處理和識別的易出錯特性。

(e)彷佛有無限的方式,人們建立文檔,複雜的佈局或不一致或不存在的排版和語義規則。不可能爲全部這些變化訓練一個系統。這使得研究人員和公司將注意力集中在小的問題子集上,他們設計的解決方案一般不適用於稍有不一樣的問題或文檔類別。

(f) 現在,許多公司都面臨着這樣一個問題:他們的客戶或供應商經過多種渠道發送文件,以便傳達具備法律或經濟意義的信息。這包括經過打印郵件、傳真、以電子郵件形式發送的掃描文檔圖像,甚至PDF或TIFF格式的電子文檔(輔以元數據)填寫的表單。儘管這些通道中的大多數都提供了必定數量的元數據(傳真提供了傳真號碼,電子郵件的標題中有信息,電子文檔有全套的描述符),但它們仍然須要解決整個文檔分析問題,正如這本書大量展現的那樣。此外,由文檔傳送的消息是工做流的一個組成部分,即它們能夠請求信息或回答這樣的請求。幫助這些多通道信息直接提供給工做流是一個挑戰,而解決這一挑戰的好辦法將具備很高的經濟價值。

結論

Sellen和Harper[18]有力地指出,在可預見的將來,即便純數字媒體繼續呈指數級增加,紙張做爲傳播媒介的做用也不太可能在規模上降低。Lesk對數字圖書館的預言性研究[19]指出,即便許多現代數據不可避免地將是「天生的數字」,所以永遠沒必要從文件的圖像轉換而來,隨着數字圖書館規模的不斷擴大,印刷紙的總量也將隨之增加。在Nunberg對書(20)的將來展望中,數字和基於文檔的信息版本將共存,並藉助於文檔圖像分析技術,相互豐富地相互參照。

相關文章
相關標籤/搜索