RPA開發教程丨RPA+OCR如何提取電子合同信息

隨着公司產品UiBot的影響力在國內外不斷加強,與合做夥伴簽定的合同也變得愈來愈多,故此致使業務人員對合同關鍵信息的提取工做,變得日益繁重。html

基於此,公司內部關於電子合同信息提取的流程自動化需求應運而生。工具

如下是關於RPA+OCR提取電子合同信息的流程視圖。ui

RPA+OCR提取電子合同信息流程視圖

基於電子合同信息的提取,根據文件類型,分爲兩大類:Word和PDF。htm

一、Word類。 Word類的會直接用RPA機器人UiBot從信息裏面根據字符規則提取出關鍵信息,生成結構化數據,固然,也會碰見有些Word文檔是補充協議等,沒有相關要提取的信息,這類會根據業務規則直接在流程裏面,根據模板判斷劃分出來。對象

二、PDF類。 PDF類的會根據裏面信息分爲兩類,一類是文字型,一類是圖片型。blog

文字的可使用UiBot的窗口元素中的預製組件獲取元素文本或者文本中的獲取文原本提取關鍵信息。(須要注意的是使用Acrobat的時候,須要在編輯中選擇輔助工具來作以下圖操做)圖片

Acrobat更改當前文檔的閱讀選項

圖片類的,就必需要使用OCR來進行識別,而後進行信息提取,由於上面有蓋章等不一樣因素的影響,正確率並不能保證百分之百,甚至也沒有關鍵性能夠迴流驗證的信息,因此生成的結構化數據仍須要人工二次校驗,才能夠錄入系統,因此基於圖片類的電子合同,並無爲業務人員節省多少時間,無非是圖片類的電子合同佔比並不高,因此影響不大。文檔

固然此類電子合同都是使用公司固定的統一模板,因此整體業務並不複雜,但若是合同模板不能統一,各有特點,可能就須要根據各個模板的類型來作歸類劃分和業務異常處理。get

另外一方面,就技術上來講,也能夠直接用源碼模式來引用Office(Word,PDF文字類)的對象直接後臺處理,相比較而言,處理速度會比較快一些。源碼

原文地址:https://www.uibot.com.cn/news-5-1309.html

相關文章
相關標籤/搜索