騰訊 AI Lab 計算機視覺中心人臉 & OCR團隊近期成果介紹(3)

歡迎你們前往騰訊雲社區,獲取更多騰訊海量技術實踐乾貨哦~git

做者:周景超算法

上一期中介紹了咱們團隊部分已公開的國際領先的研究成果,近期咱們有些新的成果和你們進一步分享。安全

1 人臉進展

人臉是最重要的視覺信息之一。以貌識人、以貌取人是人的本性,也是最天然、最經常使用的身份確認和交互方式之一。互聯網和移動互聯網上天天上傳和傳播的天文數字級別的照片中有很大一部分都是和人臉相關的(好比國際知名互聯網公司Facebook天天都有億級以上的海量人臉照片和視頻上傳),所以人臉檢測與識別技術在學術界和工業界都備受關注,是各類國際前沿視覺技術的重要檢驗場之一。網絡

在上一期中已介紹了咱們團隊在人臉檢測與人臉識別上所取得的世界領先的原創性成果,迄今爲止,咱們團隊在人臉檢測的國際最權威評測平臺WIDER FACE的全部三個測試子集、人臉識別的國際最權威評測平臺Megaface Challenge 2(不一樣於Megaface Challenge 1,Megaface Challenge 2嚴格限定參賽者使用官方提供的固定的訓練數據以公平地對比不一樣人臉算法的性能)的全部測試任務中都取得世界第一的性能。衆所周知,原創性技術和落地應用這兩者是密切相關、相輔相成的,一方面,原創性技術須要在落地應用場景中檢驗其有效性並幫助解決工業界的實際需求。另外一方面,工業界的不少實際需求是以前長期存在可是在技術層面長期解決不了的,對這些技術難題若是沒有真正創新性的技術突破也就難以真正解決。性能

就應用進展而言,咱們團隊自主研發的人臉技術已經接入公司的若干重要場景下的應用業務。其中一個是TEG信安業務場景,目的是精準識別海量上傳圖像中的敏感人物,針對帶有敏感人物的圖片或視頻進行攔截。該項目的難點在於待識別的敏感人物會以各類形式出如今圖片當中,好比漫畫和處理過的照片都是比較難的狀況。咱們採用自主研發的人臉識別模型對該問題進行了建模,同時利用TEG信安提供的業務數據對業務場景進行了優化。學習

咱們的人臉技術接入的另外一個重要業務是MIG互聯網+合做事業部政企項目組的騰訊慧眼項目。騰訊慧眼項目主要針對政務和生活場景,經過人臉驗證完成自動化的身份鑑別,方便百姓遠程辦事,讓數據多跑路,百姓少跑腿,爲百姓帶來更多「刷臉」辦政務的創新場景。在政務場景下的人證比對中,咱們的人臉技術在內測的業務數據上已達到甚至超過了知名人臉公司依圖科技(與商湯科技、曠世科技齊名的人臉巨頭公司)的精度。目前該項目正在進展中,並將在近期開放至騰訊慧眼項目的開放平臺上。測試

此外,咱們的人臉技術還普遍應用在了內部團隊其餘視覺相關項目中。例如在咱們的圖像數據分類項目中,人臉檢測技術用於輔助半自動的標註任務。在AI Lab自研的AI有嘻哈項目中,人臉技術也將被用於識別圖片中的名人臉,以便進一步的提升圖片配文的質量。優化

2 OCR進展

2.1 ICDAR競賽

在上一期中介紹了咱們團隊在OCR的ICDAR Robust Reading競賽中所取得的佳績。該競賽有兩個很重要的競爭很激烈的場景:互聯網圖片場景圖像(Born-Digital Images)和對焦天然場景文本圖像(Focused Scene Text Images)。咱們在這兩個場景的文本定位任務(Task 1: Text Localization)和單詞識別任務(Task 3: Word Recognition),一共四個任務上都取得第一名的佳績。通常對每一個場景的Robust Reading競賽,傳統上分紅四個任務:文本定位、文本分割(Text Segmentation)、單詞識別、和端到端識別(End to End)。在傳統OCR時代,識別圖片中的文本必然通過檢測、分割和識別三個階段。在深度學習時代,近年來因爲RNN的出現,對於檢測到的單詞能夠直接訓練網絡作識別,分割這個任務已沒有太大意義,成爲雞肋,也沒有團隊參加這項任務,ICDAR 2017年公佈的新的競賽數據集,如:COCO-Text,直接取消了這項任務。網站

近期咱們向OCR的ICDAR Robust Reading競賽的最終目標(端到端識別,即採用端到端的方法識別圖片中的文本)發起衝擊,並取得突破,在上述兩大重要場景的端到端識別上也都得到第一名。值得一提的是,迄今爲止咱們在這OCR的兩大重要場景上都實現了大滿貫,超過了該領域的衆多強勁對手(百度、阿里、商湯、曠世科技、和各大高校),囊括了全部的6項冠軍(忽略已經被淘汰的分割任務)。lua

就技術手段而言,咱們基於在該領域的深厚技術底蘊(人臉與OCR的不少底層技術是相通的)以及在參加文本定位和單詞識別任務中所積累的國際領先技術,進一步採用了級聯訓練(Cascade Training)的方法,把文本定位網絡和單詞識別網絡集成起來,使得結果能夠正向流動、反饋能夠逆向傳播。憑藉着這種方法,咱們在互聯網圖片和對焦天然場景文本圖片這兩個重要場景的端到端任務上都得到第一名的佳績,截圖以下所示。

相關連接:rrc.cvc.uab.es/?ch=1&c…

圖2. 互聯網圖片端到端任務上的排名

互聯網圖片端到端任務部分結果以下圖所示,詳細結果可在網站上查詢:rrc.cvc.uab.es/?ch=1&c…

圖3. 互聯網圖片端到端任務的部分結果

相關連接:rrc.cvc.uab.es/?ch=2&c…

圖4. 對焦天然場景文本圖片端到端任務上的排名

對焦天然場景文本圖像端到端任務部分結果以下圖所示,詳細結果可在網站上查詢:rrc.cvc.uab.es/?ch=2&c…

圖5. 對焦天然場景文本圖片端到端任務的部分結果

3 小結

人臉&OCR團隊一直以來按照「夯實基礎,作既有創新性又能落地應用的國際前沿工做」這個研究思路開展和推動工做,迄今爲止咱們不只在人臉與OCR的多項國際權威榜單名列榜首,並且咱們的技術在公司的多個重要的場景中獲得了很好的應用。近期,咱們團隊參與的「AI在騰訊信息安全中的應用」項目得到了2017年下半年技術突破獎銀獎,截圖以下。

在2017騰訊全球合做夥伴大會上,AI Lab計算機視覺中心負責人劉威博士也向公司的合做夥伴和行業精英介紹了咱們團隊在人臉與OCR上的若干研究成果,以下圖所示:

人臉&OCR團隊將繼續以踏實、進取的態度作好研究工做和項目落地,不忘初心,繼續爲人臉與OCR的技術發展貢獻本身的力量。

相關閱讀

相關文章
相關標籤/搜索