讓數據處理更簡單?百度EasyData推出首個高級智能數據清洗功能

在進行AI模型開發時,數據的數量與質量直接影響模型效果。在實地數據採集以後,企業每每須要從大量數據中篩選出符合訓練要求的相關數據,剔除質量差或不相關的數據,這個步驟被稱爲數據清洗。後端

一般來說,在清洗數據時主要會清理掉對訓練任務沒有用途的數據,例如在訓練工廠工人佩戴安全帽識別模型時,但願在視頻抽幀後的大量圖片中僅保留有工人出現的圖片進行標註訓練。在這一步驟上,傳統作法是進行人工篩選,人力投入較多且容易發生遺漏;隨着人工智能發展,目前許多平臺,如百度大腦AI開放平臺,已經提供人臉檢測、人體檢測的通用接口,用戶能夠先調用接口處理數據,篩選出採集到人像的數據,再進入到具體的檢測識別步驟。那麼,是否有一個集成了各項數據處理能力,儘可能減小人工干預,可以自動完成視頻數據採集、抽幀、數據清洗、智能標註,從而高效提取高質量訓練數據的解決方案呢?安全

關注到有愈來愈多的用戶對數據處理有強烈需求,今年4月,百度全新推出智能數據服務平臺EasyData,集數據採集、數據清洗、數據標註等功能於一身,完成上述數據處理工做以後,能夠在EasyDL平臺進行模型訓練、模型部署。ide

針對數據清洗這一具體功能,EasyData目前上線了去類似、去模糊、旋轉、裁剪和鏡像這5種基礎的數據清洗功能。那麼除了常規能力以外,EasyData還有什麼業內獨家的終極祕技?學習

從應用出發,高級清洗功能讓數據處理事半功倍大數據

在園區智能管理等場景下,須要監測工廠園區、林區中是否有人闖入,或檢查工人是否佩戴安全帽。爲了知足此類場景下的圖片清洗需求,EasyData上線了高級清洗功能,將無人臉、無人體出現的數據進行過濾。EasyData聯動百度大腦AI開放平臺提供的前沿技術能力,用戶僅需在百度智能雲上開通相應的服務(人臉檢測和人體檢測均可以避免費試用),就能夠經過簡單的配置,在EasyData平臺上直接使用這些功能進行自動數據清洗。人工智能

一、過濾無人臉圖片spa

若是之前沒有用過百度智能雲的人臉檢測服務,第一次使用高級清洗的功能會提示「申請免費試用」,點擊連接會進入百度智能雲人臉檢測的頁面,按照提示,開通服務後,再回到EasyData的頁面就能夠正常使用了。3d

和基礎的數據清洗服務同樣,過濾無人臉圖片也是以數據集爲單位的。在數據清洗頁面選擇過濾無人臉圖片,點擊保存,提交任務就能夠進行清洗。若是勾選了「保留標籤」,那麼不只會把沒有人臉的圖片過濾,還會將人臉畫框同步至清洗後的數據集。orm

提交任務時勾選保留人臉畫框視頻

例以下圖,清洗前的數據集除了人臉圖片,還有一些風景照、車輛等其餘物體的照片,人臉過濾會把這些沒有人臉的圖片過濾,保留下來包含人臉的圖片,包括戴口罩、被遮擋的人臉也能夠識別出來。

清洗前的數據集中有人臉照片、風景照、靜物照

清洗後的數據集只有人臉照片被保存下來

戴口罩的人臉圖片

二、過濾無人體圖片

過濾無人體圖片一樣會用到百度智能雲的人體檢測能力,在使用以前須要在百度智能雲上開通相應的服務。過濾無人體圖片會用到兩個接口,人體檢測和屬性分析(https://ai.baidu.com/tech/body/attr)和人像分割(https://ai.baidu.com/tech/body/seg)。數據集模板爲圖像分類和物體檢測的數據集會調用人體檢測和屬性分析接口,數據集模板爲圖像分割的數據集會調用人像分割接口。百度智能雲上的人像分割接口返回的是人像圖片對應的二值圖片(人像爲1,背景爲0),在後端會執行相應的標籤轉換,返回的二值圖片轉換成對應的標籤。

清洗前的數據集中有風景圖、靜物圖和人體圖

數據清洗過濾保留的5張人體圖片

模板爲圖像檢測的數據集清洗後的標籤

模板爲圖像分割的數據集清洗後的標籤

關注普遍需求,提供多種基礎數據清洗功能

一、去類似圖片

用攝像頭自動採集圖片的時候,因爲長時間在同一個場景下,即便作了抽幀處理,仍是會有大量的類似圖片。大量的類似圖片,數據價值低,並且佔用了大量的存儲空間,而人工篩選,耗時費力,容易出錯。EasyData平臺推出的去類似圖片利用圖片的類似檢索特徵,計算圖片的兩兩相關性,能夠自動地判斷類似圖片、保留不類似的圖片,具體操做也十分簡便。

以下圖所示,去類似前的數據集裏有8張圖片,根據圖片的類似度,圖片能夠分紅3類。清洗完成後的數據集中有3張圖片,分別是清洗前的3類圖片中的一張。

去類似前的8張圖片

去類似後保留下來3張圖片

拖拽圓點能夠修改類似度分值

二、去模糊圖片

相機抖動、物體快速移動都會形成拍出來的圖片不清晰、產生低質圖片。經過人工挑選的方法去除模糊圖片缺少統一的標準,容易漏刪或多刪。利用EasyData的去模糊圖片,能夠輕易地去除模糊圖片。

以示例圖片爲例,清洗前有5張圖片,畫質不一,清洗後保留下來兩張高質量的圖片。此外,若是用戶認爲有部分模糊圖片沒有去除,或者高質量的圖片沒有保留下來,能夠考慮調整清晰度的分值,從新清洗。

去模糊前的5張畫質不一的圖片

去模糊後保留下來清晰圖片

 拖拽圓點能夠修改清晰度分值

對於普通清洗,能夠在一個清洗任務中提交多個清洗操做,例如同時勾選去類似、去模糊功能,便可同時去除類似和模糊的圖片。

目前的數據清洗服務所能支持的最大數據集大小是5萬張圖片。基於EasyData平臺的大數據處理平臺,對於基礎清洗服務,2萬張圖片的數據集,僅需1小時能夠完成清洗;5萬張圖片的數據集,只需2小時便可完成清洗。對於高級清洗服務來講,清洗效率也能夠經過配置QPS靈活調整清洗效率,更方便快捷。

考慮到智能園區管理等場景中,有對視頻進行截幀、自動上傳的需求,EasyData平臺也免費提供SDK,供用戶進行下載,能夠將SDK接入業務現場的數據採集終端,在平臺設置截幀時間與間隔,自動將原始視頻數據截爲圖片數據並上傳至EasyData平臺進行後續處理。

EasyData是百度大腦推出的業內首個提供軟硬一體、端雲協同的智能數據採集與處理平臺,支持圖片、文本、音頻和視頻四類數據的處理,其中圖片數據支持了採集、清洗、標註一站式處理,覆蓋模型開發中的各種數據管理需求。EasyData處理後的數據可直接應用於EasyDL模型訓練,經過EasyDL預訓練模型和自動遷移學習機制,高效開發AI模型。

當即體驗EasyData:https://ai.baidu.com/easydata/

【責任編輯:張燕妮 TEL:(010)68476606】

相關文章
相關標籤/搜索