基於Tesseract—OCR技術的文字識別優化

  一、需求分析 對天貓平臺的企業信息採集下來進行結構化處理,提取出文字信息後彙總進Excel作爲交付文件。 主要的功能設計如下: 1、程序能夠自動讀取企業工商信息圖片所在的文件夾路徑,並從文件夾路徑中順序取出圖片進行識別,最終的識別結果以一份彙總的Excel交付。 2、因爲天貓平臺公示的圖片內容沒有固定格式,所以需要程序能匹配不同格式的圖片內容提取信息。 3、能夠提取出圖片中的企業註冊號、企業名
相關文章
相關標籤/搜索