AI輔助,數據標註行業發展的新引擎丨曼孚科技

人工智能是研究如何經過機器來模擬人類認知能力的科學,目前人工智能應用最普遍的計算機視覺與語音交互依賴於監督學習下的深度學習方式,而監督學習下的深度學習算法訓練則十分依賴人工標註數據。算法

相關數據顯示,目前一個新研發的計算機視覺算法須要上萬張到數十萬張不等的標註圖片訓練,新功能的開發須要近萬張標註圖片訓練,而按期優化算法也有上千張圖片的需求。ide

這些海量訓練數據集的背後是無數標註員共同努力的成果,正如著名科幻做家劉慈欣所言,「如今的人工智能,前面有多少智能後面就有多少人工。」工具

不過,隨着人工智能落地進程的加快,這種過於依賴人力的方式也暴露出不少弊端。學習

首先,AI商業化對數據標註行業提出了新的要求,想要更加契合落地需求、解決垂直場景具體痛點,還須要海量且優質的標註數據作支撐,這在無形中增長了數據服務供應商的管理以及人力成本。測試

此外,數據需求量的提高對服務商的交付能力也提出了新的要求,容易形成項目延期等連鎖反應。優化

爲了解決這些問題,經過在數據標註以及質檢的環節中應用AI輔助,進行人機協做,能夠有效提升標註效率,充分發揮AI對於數據標註行業的反哺做用。人工智能

1.AI預標註進程

在語音轉寫類標註項目中,數據標註員須要仔細聆聽每個詞語的發音,判斷並轉寫其語義,這對於標註員的聽寫能力以及在長時間多任務下的專一力有着極高要求。圖片

經過在此環節應用AI輔助,對語音數據進行語音識別、文字轉寫和天然語言理解的預處理操做,自動完成標註後,再由人工進行校對,不只下降了標註難度還能夠有效提升標註效率。開發

以曼孚科技語音標註工具爲例,預標註技術加持下,標註工具會自動識別轉寫語音數據,標註員只須要在預標註的結果上略做修改便可,相比於傳統轉寫操做,AI輔助能夠成倍提升標註效率,實現更少的人力完成更多的項目。

2.AI質檢

一個完整的標註流程,須要經歷標註-審覈-質檢等多個流程,其中質檢在標註的過程當中發揮着查缺補漏、提升總體標註質量的關鍵性做用。

目前,數據質檢主要以人工質檢爲主,經過抽查的方式發現標註數據集中的重複樣本和不合格樣本。然而,人工抽查的方式校驗,在準確率和時效性方面都大有不足,很容易忽視錯誤樣本,遍查的方式在成本上又難以接受。

經過在質檢過程當中引入AI輔助能夠有效解決這些問題。相比於人力質檢,機器質檢不管是在效率仍是執行力上都更具優點,且能夠作到覆蓋所有數據,有效發現各類問題,提升數據質量。

通過曼孚科技的實際測試,相比於傳統的人力抽檢,AI輔助質檢平都可以提高5%以上的數據準確率。

目前,標註與質檢是AI輔助應用效果最好的兩個環節,將來在標註方案創立到交付的全工做流過程當中,均可以引入AI輔助,充分發揮AI對於數據標註行業的反哺做用,實現效率與質量的雙重提高。

相關文章
相關標籤/搜索