1.算法
兩年前,來自山東農村的王磊成爲了一位數據標註員。彼時的他,工做內容很是簡單且枯燥:識別圖片中人的性別。網絡
然而,一段時間以後,他注意到分配給他的任務開始變得愈來愈複雜:從識別性別到年齡,從框選2D物體到3D物體,圖片場景從白天到深夜,甚至出現了多霧天氣,用他本身的話來形容,就是「愈來愈奇怪了」。框架
小趙今年25歲,別看年齡不大,可是她已經作了足足8年的餐廳服務員。她的人生計劃是再作幾年服務員,攢上一筆錢就回到老家開一家只屬於本身的餐廳。然而,2017年隨着她所在的餐廳因質檢不合格而關停後,她的人生也所以發生了重大改變。機器學習
她本想再找一家餐廳,繼續從事「老本行」,然而身邊的一位朋友卻給小趙推薦了一個新的職業:數據標註員。ide
她決心嘗試一下。工具
兩年以後的如今,小趙已經成爲了一家數據標註公司的標註組組長。性能
「咱們會把原始數據分配給一個標註組,一般包括10個標註員和3個質檢員。這些專門的標註小組是通過特別訓練的,得益於標註工具的技術領先性,咱們能夠以95%的準確率在8天左右的時間完成大概10,000張自動駕駛車道檢測的標註工做。」學習
2.ui
現現在,像王磊、小趙這樣的普通數據標註員在國內已不下上百萬。數據標註員有時候會被稱爲「AI勞工」或者是「AI領域看不見的工人」。他們標註的數據會用來訓練機器學習模型,而後咱們才能享受到經過機器學習賦能的產品和服務。人工智能
三十年之前機器視覺系統還幾乎不能識別手寫的數字,可是今天人工智能系統已經能夠控制自動駕駛汽車、在病理幻燈片中檢測腫瘤細胞,甚至審閱法律合同。先進的算法和強大的底層計算資源,以及精確的標準數據集,在人工智能的復興中起到了相當重要的做用。
對數據標註需求的持續增加催生了專業數據服務企業的蓬勃發展。以小趙的主要合做企業曼孚科技爲例,曼孚科技旗下擁有超過10萬+像小趙這樣通過嚴格訓練的標註、質檢人員,曼孚科技所研發的數據標註工具天天會被數以萬計的標註員所操做。
隨着數據服務公司規模的擴大,相關企業的估值也水漲船高。舊金山一家名爲Scale的AI企業得到了1億美金的投資,搶佔了今夏科技圈的頭條。值得注意的是,這家公司是由一位僅僅22歲的MIT畢業生於2016年創立的,如今Scale已經成爲了硅谷最受追捧的AI初創企業之一。
Scale AI的高估值歸功於他們在自動駕駛領域所提供的多樣性數據標註服務。Waygo、Lyft、Zoox、Cruise和Toyota研究所都是他們的客戶。TechCrunch報告稱Scale AI旗下有將近30,000的簽約標註員提供文本、語音、圖像和視頻的數據標註服務。
另一家熱門的數據標註公司是Mighty AI(之前稱爲Spare5).今年夏天他們被共享駕駛巨頭Uber收購,此舉被視爲Uber推進自身自動駕駛技術發展的關鍵一步。
這些新興的數據標註公司有一些共同點:他們都以本身能提供高質量數據標註服務即通過嚴格質量控制的專項領域數據而區別於Mturk等傳統的數據衆包平臺;他們的衆包標註員都是在全世界範圍內通過嚴格篩選而且接受過專業的培訓與管理;此外,這些公司內部的算法則是經過不斷研究如何應用算法模型來提升標註效率。
AI公司的訓練數據除了來自內部的數據標註團隊,一般還很是依賴這些可控、高質量的數據標註服務提供商。Synced被告知,有一些自動駕駛企業每月須要支付給數據標註企業幾百萬美金用於數據標註服務。
2019年出現了大批可用的自動駕駛標註數據集。Waygo、Ford自動駕駛分支Argo AI和Lyft都開源了高質量的自動駕駛數據集,這對於高度依賴數據的自動駕駛技術研究的發展是一個很是好的信號。
相比構建一個圖像分類數據集,構建一個高質量的自動駕駛數據集要複雜的多。Waygo Open Dataset有16.7個小時的視頻數據、3,000個駕駛場景、600,000視頻幀、將近2500萬3D多邊形和2200萬2D多邊形標註,而這只是Waygo大量私有自動駕駛數據集中的一小部分。
中國領先的自動駕駛服務提供商Baidu Apollo告訴Synced一個典型的高質量自動駕駛數據集通常包括:
---像素級語義標註
---3D語義標註
---像素級物體類別標註(pixel-wise object instance annotation)
---精準道路分割
---移動物體關係標註
---高精度的GPS/IMO信息
自動駕駛這個領域自己的一些特質,要求自動駕駛相關企業必須制定嚴格的數據標註標準。當一個語言模型出錯時,最多隻是句子不通順。可是一個自動駕駛數據集的錯誤可能會形成自動駕駛車輛在行駛過程當中出現災難性的後果。
去年UC Berkeley開源了包括100K駕駛錄像視頻的BDD100K數據集,成爲了當時最大的自動駕駛數據集。
Fisher Yu,BDD100K的主要貢獻者之一,告訴Synced,出於對傳統衆包平臺糟糕的標註數據質量的擔心,他們選擇把標註工做外包給了第三方的數據服務企業。
「傳統衆包標註員很難交付自動駕駛所需的高質量,高精度的分割數據集,因此企業通常依賴公司內部的標註團隊或者第三方的數據標註服務企業」,Yu這樣告訴記者,「Garbage in, garbage out」(沒有高精度訓練數據,就沒有高精度模型產出)。
3.
橫店影視城,也被稱爲「中國的好萊塢」,是亞洲最大的電影拍攝基地。它位於浙江省中部,由數千千米的農田改造而成,數以千計的影視工做者在這裏拍攝電影、電視劇以及網絡劇。
曼孚科技就在這裏設立了一個基地。不過他們不是在拍攝電視劇,而是用來專門拍攝和記錄演員的面部表情——大笑,哭泣,憤怒等等,這些合法採集的數據能夠被AI公司拿來作面部關鍵點標註的素材。
曼孚科技成立於2018年,隨着人工智能在中國的迅猛發展,團隊成員已經由最初的幾我的擴展到幾十人,同時曼孚科技還與數以萬計的全職標註員合做。另外,曼孚科技還設有專門的算法團隊致力於把最新的AI技術應用到數據標註中。
中國的科技公司在高質量標註數據對算法的重要性方面有着深入的理解。一些企業在數據標註的精度、複雜性、時間等方面有了更高的要求。去年衆多數據標註企業的倒下與他們不能知足這些新的要求有很大關係。
曼孚科技的CEO章越(如下簡稱「章」)告訴Synced:「回到2015年和2016年,AI企業經過開源數據集或者爬取網絡上公開數據訓練出來的AI模型就能夠得到融資。可是若是他們想把算法應用在現實場景中,就必須提升標註數據質量。」
章以面部關鍵點識別爲例介紹說:「幾年之前,標註員只須要在人臉上標註幾個點就能夠了,可是如今面部關鍵點標註須要206點:每一個眉毛上8個,嘴脣個20多個,臉頰17個等等。」
章繼續說道:「領域內的專家在標註中發揮了關鍵的做用。那些廉價的標註員通常只能標註不須要什麼背景知識的數據,對於法律合同分類,醫學圖像和科學文獻等,必需要有相關領域的專業知識才能夠作。
通常狀況下,有駕駛經驗的人比沒有駕駛證的人,能夠更好更有效的標註自動駕駛的數據集。相同的,有醫學,病理學,放射學或者其餘醫學方面有學術背景的人,能夠更準確的標註醫學圖像。可是領域專家的使用成本可不便宜。」
4.
Wilson Pang是Appen的首席技術官,Appen是一家位於悉尼的標註數據交易公司,擁有180多種語言的專業知識,在130多個國家擁有超過100萬名熟練標註員。Pang告訴Synced,當公司購買數據時,成本再也不是最重要的決定因素。
「若是數據質量不合格,AI模型的性能將不盡如人意。 當發生這種狀況時,人們一般須要再次收集和標註數據,這會浪費大量數據科學家的時間,並增長訓練這些模型的硬件成本。」
「但最重要的是,當公司沒法獲得高質量的訓練數據時,他們沒法及時推出算法模型,也就不能遇上競爭對手的進度 」Pang說。 今年3月,Appen以3億美圓的價格收購了位於舊金山的高質量數據標註公司FigureEight(之前稱爲Crowdflower)。
5.
鮑裏索夫在莫斯科國立大學得到計算機科學博士學位。兩年前,他聯合創立了Supervise.ly,這是一家位於硅谷的創業公司,該公司研發的軟件旨在用深度學習模型提升數據標註的效率。 Supervise.ly平臺現已被超過15,000家公司和工程師使用,主要來自農業、建築、消費電子、醫療保健和自動駕駛汽車等行業。
Supervisely.ly是過去幾年數據標註潮流中涌現出的衆多公司之一。Borisov說最近幾年複雜耗時的數據註釋工做(如頭髮分割和視頻標註)的需求激增,推進了公司的快速發展。
「在頭髮分割的過程當中須要耗費多少標註員並不重要,重要的是高質量準確像素級的標註。」數據標註軟件公司Watchful的聯合創始人Singleton說,大多數須要高質量標註數據的公司在數據科學和機器學習專業知識方面自己相對不成熟,並且發展人工智能項目的預算也有限。
「數據標註每每是由一個小型而且已經工做量飽和的數據團隊完成的,以至於他們不能專心的研究算法模型,而這個纔是真正有意義的工做」,Singleton說。
對於Watchful和Supervise.ly,這些中小型客戶表明了一個不斷擴大的機器學習工具市場,這些工具能夠幫助他們從有限數據中提取儘量多的信息。根據Grand View Research的一項新研究,全球數據標註工具的市場規模預計在2025年將達到16億美圓。
機器學習輔助數據標註的方式有不少。 Borisov描述了一種「人在環」的圖像分割方法,其中用戶首先在未標記圖像上應用預訓練過的分割模型來自動生成大概的輪廓。而後用戶手動調整輪廓。其中一個例子是Polygon RNN,這是由多倫多大學和NVIDIA開發的一個研究項目,目的是爲分割數據集提供高效標註。
Supervise.ly還設計了一個交互式標註模式。用戶首先在一個物體周圍畫一個框。而後,模型會自動建立粗略的輪廓並預測其類/域。用戶能夠經過簡單的鼠標點擊來調整模型的預測 :綠色表示正確的預測;紅色表示錯誤的預測。
Kaggle首席技術官Ben Hamner表示,主動學習是數據標註領域的的另外一個熱門話題。在最近在舊金山舉行的種子獎活動中,Hamner告訴Synced「使用主動學習是爲了辨別哪些數據點須要分類或值得標註。這樣咱們就只須要對機器還沒有了解或不肯定的數據進行分類。」
6.
學術界在推進數據標註方面的努力:「我怎樣才能使用你剛纔介紹的數據標註工具?」Huan Ling說這是他今年6月在加利福尼亞州長灘舉行的頂級人工智能會議計算機視覺和模式識別(CVPR)2019中聽到的最多見問題。
Ling是多倫多大學Vector Institute的研究生。他的研究團隊最近發表了使用Curve-GCN進行快速交互式物體標註的文章,該文章已被CVPR 2019接收。該研究的一項重大創新是使用圖形卷積網絡(GCN)自動勾勒出物體的輪廓。在實驗中,這種端到端框架表現優於目前全部自動和交互的模型。
Ling的顧問是Sanja Fidler教授,他是一位受人尊敬的研究員,帶領NVIDIA的多倫多AI實驗室。她的團隊在對象分割和圖像標註方面投入了大量精力,併爲PolyGon RNN及其改進版PolyGon RNN ++的建立作出了重要貢獻。新的GCN方法比PolyGON RNN ++快10倍(在自動模式下)和100倍(在交互模式下)。 Ling的CVPR2019報告會議受到與會者的熱烈歡迎。
與Fidler教授的團隊同樣,谷歌、Adobe、蘇黎世聯邦理工學院和其餘大型AI實驗室也對圖像和視頻標註很是感興趣,谷歌的Open Image,Adobe的交互式視頻分割以及ETH的Dextr表明着對這個領域的強大投資力量。
Ling告訴Synced,數據標註中的難題主要是3D標註和視頻標註。 Appen CTO Pang表示,目前基於機器學習的對象跟蹤算法已經能夠輔助視頻標註。標註員在第一幀上標註對象,而後算法經過後續幀跟蹤這些對象。標註員只需在算法跟蹤功能不正確時調整標註。該方法比沒有輔助標註時快100倍。
「監督學習仍然是人工智能解決方案最有效的方法,尤爲是那些創新性的系統,並且我認爲這種趨勢短時間不會改變。」