美團做爲全球最大的本地生活服務平臺,擁有由遍及全國的市場人員所拍攝的衆多門臉招牌圖片數據。每張圖片都是由全國的不一樣我的,採用不一樣設備,在不一樣地點,不一樣時間和不一樣環境下所拍攝的不一樣目標,是可貴的能夠公正評價算法魯棒性和識別效果的圖片數據,挑戰也很是大。算法
近年來業界圍繞着文字檢測和文字識別提出了許多有效的算法和技術方案。因爲以前公開的數據集廣泛以英文爲主,所以所提出的技術方案對中文特有問題關注不足。表如今以中文爲主的實際應用場景中,這些技術方案的結果與應用預期差距較大。以美團掌握的某典型中文圖片數據爲例,在6000張圖的圖片數據集上(已去除文字沒法辨識的圖片),測試了國內最知名的三個AI開放平臺,按字段統計識別率分別是94%,91% 和 86%,通過努力咱們也只達到 98%。中文OCR在實際應用場景的表現並不樂觀。微信
在這次 ICDAR2019上,咱們挑選出很能表明中文特色的餐飲商家的門臉招牌圖片來組織競賽,這些招牌上的文字存在中文特有的設計和排版,同時也兼有天然場景文字識別中廣泛存在的拍照角度、光照變化等干擾因素。咱們但願經過競賽引發同行們對中文識別的關注,羣策羣力解決中文識別的實際問題。測試
國際文檔分析與識別國際會議 (International Conference on Document Analysis and Recognition,ICDAR)是由國際模式識別學會(IAPR)組織的專業會議之一,專一於文本領域的識別與應用。ICDAR大會每兩年舉辦一次,目前已發展成文字識別領域的旗艦學術會議。爲了提升天然場景的文本檢測和識別水平,國際文檔分析和識別會議(ICDAR)於2003年設立了魯棒文本閱讀競賽(「Robust Reading Competitions」)。至今已有來自89個國家的3500多支隊伍參與。spa
ICDAR 2019將於今年9月20-25日在澳大利亞悉尼舉辦。 美團今年聯合國內外知名科研機構和學者,提出了"中文門臉招牌文字識別"比賽(ICDAR 2019 Robust Reading Challenge on Reading Chinese Text on Signboards)。設計
美團本次公開的數據,由遍及全國的市場人員所拍攝的衆多門臉招牌圖片組成,共25000張。每張圖片是由徹底獨立的不一樣我的,採用不一樣設備,在不一樣地點,不一樣時間和不一樣環境下所拍攝的不一樣商家。該數據集以中文文字爲主,也包含必定數量的英文和數字,英文和數字的佔比介於 10% 和 30% 之間。標註內容比較完備,每張圖片均標註了單個字符的位置和文本,以及各字符串的位置和文本。是可貴的用於研發和評估中文識別技術的數據集。其中,20000張圖片用於訓練,2000張用於驗證,3000張用於測試。圖片
本次門臉招牌識別,共定義了 4 個任務,分別以下:rem
頒發獎狀:按照最終成績進行排名,以從高至低順序依次選取前三名,頒發獎狀。
比賽獎金:從高至低順序選取前三名參賽方爲學校及科研院所等非盈利機構。
獎金詳細以下:文檔
掃描下方二維碼,直接進入報名連接報名。字符串
報名連接地址: http://rrc.cvc.uab.es/?ch=12
報名連接二維碼: get
參賽答疑郵箱:mtdptech@meituan.com(郵件標題請註明 「ICDAR2019」)
加入參賽交流微信羣
步驟1:微信添加 「MTDPtech02」 爲好友(暱稱:美美),或掃描下方二維碼直接添加:
步驟2:回覆美美 「ICDAR2019」,則會自動將您加入ICDAR2019-ReCTS技術交流羣