圖片鑑黃服務市場容量巨大,做爲移動互聯網行業最爲熱門的創業領域,移動社交類App天天生產大量圖片,並有無數色情圖片混雜其中,因此高效準確地鑑別和剔除淫穢色情信息成爲一項十分艱鉅的任務。html
此外,移動直播的大熱也致使圖片鑑黃需求大增,尤爲對於中小開發團隊而言,直播平臺極可能由於人力監管問題而在涉黃審覈方面出現風險。而自主研發鑑黃功能或增長審覈人員又會增長產品和服務外的支出,給前期開發形成額外壓力。利用人工智能圖像識別技術進行高效準確的自動化鑑黃服務,能下降企業使用鑑黃服務的技術門檻,幫助企業有效減小相關人力成本的投入。算法
△ 傳統神經網絡與深度神經網絡網絡
機器學習是人工智能的核心,簡單來說它就是:運用一套通用的算法——泛型算法,創建起數據邏輯,利用模仿人腦的機制來解釋數據,讓機器自動學習良好的特徵,從而減小人工審覈的過程。機器學習
舉例來講,想要教會機器去識別色情圖像,需利用成千上萬的圖片樣本去「訓練」它,提取色情圖片特徵並不斷記憶。每張圖片中的任何一個點都包括亮度值、色相值、飽和度值,經過設置這三個值的大小範圍,機器能識別出「肉色」,進而猜想出圖片裏裸露的人體皮膚區域。學習
色情圖片最明顯的特色就是畫面中人體皮膚顏色所佔比例較大,當機器識別圖片中有相似人體膚色區域後,須要進一步確認區域的來源,看他們是沒有穿衣服的女主角仍是正常物體。假設兩塊黃色區域分別是兩條腿或者兩隻胳膊,另外一塊區域是人的身體,這些區域的長度值、寬度值符合人體大小比例,且彼此位置知足必定的幾何關係,則有很大多是色情圖片,若是這些區域之間大小和位置不像是人的身體,則能夠排除色情圖片的嫌疑。大數據
△ 計算膚色區域的幾何關係優化
△ 圖片區分標準人工智能
色情:裸露敏感部位,包含露骨鏡頭,描述性交行爲和色情場景的圖片。spa
性感:衣着暴露但沒有裸露敏感部位。視頻
正常:非色情,非性感圖片。
色情與藝術的鑑定標準是人定的,理論上講能夠經過刻意訓練、調整閾值等手段讓機器更符合本身的標準,色情圖片數量越多,風格和場景越多樣化,機器學習結果越準確。
機器學習的一個主要優點在於能夠利用大數據樣本,在學習的過程當中不斷提升識別精度。得益於今年來計算機速度的提高、大規模集羣技術的興起、GPU 的應用以及衆多優化算法的出現,耗時數月的訓練過程可縮短爲數天甚至數小時,機器學習能夠被普遍運用,大大提高鑑黃效率。
△ 又拍雲智能鑑黃工做流程
又拍雲「智能鑑黃」功能將自動對直播、視頻、圖片等內容進行鑑別。目前在一張圖片鑑黃的完整過程是將它拿到鑑黃中心鑑別,完畢後,再把結果發送至圖片審覈平臺進行最終確認。對於疑是色情圖片將由人工審覈確認,而這部分將會隨着訓練次數的增長而不斷減小,幫助運營團隊節省人工審覈成本。
一般狀況下,視頻直播鑑黃服務利用視頻截圖、圖像識別、語音審覈、彈幕監控、關鍵詞提取等方式識別色情內容。
其中視頻直播的鑑黃可按照如下步驟:識別圖像中是否存在人物體徵並統計人數;識別圖像中人物的性別、年齡區間;識別人物的膚色、肢體器官暴露程度;識別人物的肢體輪廓,分析動做行爲;提取音頻信息關鍵詞,判斷是否存在敏感信息;實時分析彈幕文本內容,判斷當前視頻是否存在違規行爲。每分鐘視頻採集關鍵幀的頻率可由客戶自主設定,從1秒到幾十秒都可,例如能夠默認5秒採集一次關鍵幀用於識別。