在readfree中有人對書籍批量掃描過程頗有好奇心,恰好在多年前的某集團企業信息化項目中,我曾經做爲總包方項目組成員負責其中的檔案電子化部分的掃描外包方考察、評價、選擇,並制定了相關技術要求、驗收質檢標準等,算是實際見識過,能夠介紹一下其中的一些狀況。因爲掃描外包(我聽到的行業內部術語更常常的是稱爲「檔案電子化」、「檔案數字化」)早已經是一個很是成熟的業務,各掃描外包公司的管理和業務流程其實大同小異。算法
1、硬件條件服務器
與我的掃描不一樣,我見過的掃描外包商就沒有用平板掃描儀的,緣由很簡單:平板掃描儀的效率過低,根本知足不了批量掃描業務上的時間要求。由於該次項目須要掃描的檔案是容許切邊再從新裝訂的,因此各掃描外包公司拿出來的都是自動進紙的高速掃描儀,不少還支持雙面掃描,一本書切好了往進紙口一放,嘩嘩譁雪片同樣從出紙口出完了也就掃完了。聽說若是是不容許拆卸的古籍或其餘珍貴檔案,外包商寧願採用幾十萬一臺的V字型拍照掃描儀,也沒有人用從平板掃描儀改進出來的零邊距書籍掃描儀,緣由一樣仍是由於效率問題。我見到的古籍拍攝樣品是用當時像素最高的全畫幅單反尼康D800(3600萬像素)拍攝的,估計如今早已升級到D850(4575萬像素)了。在試着實際處理了幾頁D800拍攝的高像素古籍照片後,我還發現CEP的某些算法實現存在嚴重缺陷,並作了一些改進。人工智能
按照通常理解,作圖像處理的電腦硬件條件應該越高越好,但實際上全部掃描外包商對成本控制都及其嚴格,因此用的機器都很濫,不少時候甲方爲了保密還在合同中規定全部電腦、服務器、存儲設備由甲方提供,就更是有啥破電腦都只能忍了。因此掃描外包商內部使用的圖像處理軟件功能都不復雜,算法越簡單越好,不少時候是用人腦代替電腦。內存
掃描外包場地通常由甲方就近提供,而且規定所掃描的檔案不能帶理現場。但也有圖省錢的甲方,容許甲方將檔案帶回本身的地盤進行掃描,掃完了再歸還回來。項目管理
2、軟件條件開發
我見過的掃描外包商都有本身開發的在線生產管理系統,包括掃描項目管理、著錄信息管理、圖像處理等功能模塊。掃描項目管理對各項目進行控制,在裏面能夠實時查看項目進度、項目成果、差錯統計、人員績效等,還能夠進行成品書籍/檔案的查詢、瀏覽等。著錄信息管理包括錄入管理、一校管理、二校管理等。圖像處理模塊也都是連網的,處理的圖像來自服務器,處理完的結果也直接存放到服務器。工作流
因爲全部的我的績效都是計件的,因此實際操做過程當中大多數人寧願用鍵盤也不肯用鼠標,尤爲是圖像處理模塊要求全部的功能都有快捷鍵,現場一個個運指如飛,看得我眼花繚亂。不過由於沒有人用平板掃描儀,掃描現場也不存在光照不均勻的問題,因此啥中縫處理、光照修正什麼的都不須要,圖像處理的功能要求和時間要求均可以大幅降低。圖像處理
正是由於這段經歷,我一直相信用來掃描書籍的不該該是平板掃描儀,就算是本身DIY一個用於不能切邊的私人掃描場合,也得要是解決了中縫問題的拍照式零邊距掃描儀。效率
3、人員組織與管理服務器端
一般針對某項目的掃描外包團隊除一個負責人、一個技術支持(一般兼任掃描儀操做員)外,就是數量不等的錄入人員、圖像處理人員,具體人數要看任務量與甲方的出價,我見過的團隊都是10人左右。關鍵是其中的人員全都是能複用的,好比說切邊、裝訂的時候,誰也別想閒着,你們都得上。人員來源也很單一:你們都在電視、報紙廣告上見過各類「包分配」的電腦打字培訓學校吧?不少都是從那裏面出來的鄉下小姑娘,別的人也吃不了那份苦。
在人員績效考覈方面比較簡單、直觀,全是計件,而後按照差錯率扣錢,因此幹得都很拼命。但因爲市場競爭太激烈,效益都很很差。我曾經陪甲方表明考察過某掃描外包現場,原本這位老兄是準備挑刺而後好好砍價的,但看完了卻私下和我說:「算了,咱仍是別砍了,那些小姑娘看上去太可憐了!」
4、工做流程
在合同簽定之後,掃描外包項目團隊天天的工做流程大體上是這樣的:
一、檔案清點、簽字出庫。這個過程甲乙方的人都得上,清點不能出錯。
二、檔案切邊,成爲散頁。這個過程就是外包項目組全員上陣了,純粹的力氣活。
下面的步驟多線並行,各司其職,最終的結果都彙總到生產管理系統的服務器上。
三、檔案批量掃描。因爲是用帶自動進紙功能的高速掃描儀掃描散頁,因此效率至關高,即便是一我的操做也每每是他最早完工。掃描出來的圖像按照檔案號(包括盒號、卷號、卷內號等)或書籍編號建立文件夾進行存儲。
四、檔案圖像處理。服務器收到掃描結果後自動分配任務,人工進行處理。處理結果由管理崗進行抽查,或者組內成員交叉互查,發現處理失誤(沒有糾斜、沒有處理乾淨等)就扣處理者的錢。處理或抽查過程當中發現掃描失誤(漏掃、紙張摺疊等)就扣掃描者的錢,同時進行補掃。
五、著錄信息錄入。因爲人工成本遠遠低於人工智能的成本,因此在對錄入信息的防錯方面採用了一個簡單的方法:2~3人同時錄入相同的信息,而後在服務器端進行對比,一致的錄入被視爲有效,直接存入成果區,不一致的結果少數服從多數(3人同時錄入時),或者提交給一校進行人工校覈。一校採用兩人同時校覈,結果一致時存入成果區,不一致時由二校人工校覈。通常二校只有一我的,並且他的校覈結果就是最終結果。但我在現場親眼見過一個極度疲憊的二校把對的改爲了錯的,因此若是你們在dx上看到有啥錯誤的著錄信息的時候,真的沒有必要大驚小怪。
上面各步的成果由生產管理系統自動按照檔案號/書號進行關聯、組織。天天下班前還須要完成:
六、檔案裝訂。切邊後的檔案總不能這麼散着還回去,因此還要裝訂成原樣再還回去。這個也是全組齊上陣進行操做。若是檔案比較多,甚至會設置專門人員,掃完就裝訂了。
七、檔案清點、簽字入庫。入庫的檔案必須按照出庫單逐一清點,不能出現遺漏。
5、質量要求與驗收
掃描質量要求這種事情至關考驗甲方的水平,基本上你能提出什麼樣的要求,掃描外包方就剛恰好能達到什麼樣的要求,以節約成本。我提的要求洋洋灑灑一大堆,不過主要關鍵點仍是圖像存儲格式、掃描DPI、差錯率等容易量化的指標。
在結果提交方面,除著錄信息(案卷目錄、卷內目錄等)外,不少技術實力不足或圖省事的甲方對於掃描結果會要求掃描外包方直接提供PDF文件,但在我負責的項目中要求的是提供圖像文件,由我方開發的軟件轉換成PDF。主要緣由是考慮到原始文件須要長期存儲(使用過程當中用的都是PDF文件),在長期存儲過程當中PDF若是出事整本書就沒了,散頁文件出事則只損失一頁而已。順便在轉換成PDF的過程當中還能夠進行一系列檢查,包括但不限於:
一、掃描外包商提供的圖像文件是否能正常讀取、正常解碼。二、圖像格式是否符合要求,圖像內存儲的掃描DPI是否符合要求。三、是否有缺頁(頁數來自著錄信息)、是否存在案卷清單與案卷文件夾對不上等。……(時間太遙遠,有些忘記了)