隨着內容審覈的要求愈來愈嚴,圖片鑑黃幾乎是全部作UGC內容應用的標配了。最近在阿里雲上搭建了圖片鑑黃的應用,發現若是結合阿里雲的鑑黃接口和自建人工智能鑑黃系統,能夠節省至少85%的費用。html
1. 直接使用阿里雲的圖片鑑黃接口git
阿里雲的圖片鑑黃服務基於深度學習技術神經網絡算法,經筆者實測準確率比較高,對圖片數量不過高的場景,能夠直接使用。若是你的服務和數據都是部署在阿里雲上的話,那麼全部的數據通信都是走內網,幾乎免費。若是用其餘第三方服務,還要經過公網進行圖片傳輸,耗費帶寬。github
點擊免費開通阿里雲的內容安全功能,開通後便可調用阿里雲的圖片鑑黃,圖片涉政恐暴識別,圖片不良場景識別等多種圖片鑑別服務。從初次調用某一功能開始的一個月內,該功能都有必定的免費檢測次數,通常是天天3000張圖片,足夠作測試開發用。算法
阿里雲的鑑黃服務包括內容檢測API,站點檢測,和OSS違規檢測三種模式。我推薦使用內容檢測API,能夠有更好的控制。固然若是應用場景簡單,能夠直接用站點檢測,和OSS違規檢測。小程序
內容檢測API有同步檢測和異步檢測兩種方式。通常狀況下用同步檢測方式便可,開發部署都比較簡單。阿里雲API接口的響應時間也比較快, 大約在1秒左右,個別狀況下會到5秒,但配上足夠的用戶交互,一般能夠知足需求。具體開發文檔參見鑑黃同步檢測API。安全
檢測接口通常返回三種可能結果,若是是pass,則不是黃圖;若是是block,根據阿里的準確率,能夠直接斷定爲黃圖;若是是review, 阿里的建議是人工審覈。我實際運行下來發現,阿里的系統主要是對動漫內容的準確率不肯定。因此若是你的場景都是實景圖,同時又不想作人工審覈的系統,也能夠直接認爲是黃圖。但若是你有大量二次元內容,則確定要人工審覈了。服務器
【省錢祕笈來了!】開發完成後,則要選擇付費方式。購買內容安全流量包比較划算。阿里雲,永遠是流量包划算!流量包划算!流量包划算!網絡
點擊打開流量包購買傳送門,點擊」當即購買「按鈕,進入內容安全流量包購買頁面。異步
而後點擊「按量加油包」,我通常選擇300萬次,性價比比較高。post
2. 搭建本身的人工智能鑑黃系統
若是本身的圖片處理量比較大,或者短期內須要處理一大批圖片,那麼使用阿里雲的鑑黃服務會不太划算。好比說咱們須要一次性處理300萬張圖片,按量加油包須要4590萬元。但本身搭建一套準確率稍低的鑑黃系統,先過濾掉90%以上確定不是黃圖的內容,再把剩下的10%傳給阿里雲的鑑黃接口,就只須要10%的鑑黃費用+1臺ECS的錢。通常2核4G的ECS足夠運行一個初級鑑黃系統,每月也就不到200塊。因此總體費用就降到了700元,能夠省85%的費用。
先購買一臺2核4G的ECS,阿里雲的ECS雲服務3折起活動,只須要1404元/年,每月不到120元。
而後搭建本身的人工智能鑑黃系統。初級的人工智能鑑黃系統用二分類網絡判斷就能夠,訓練數據包括正例負例兩個集合。其中正例須要本身收集,最好1萬張圖片以上。負例則收集各類各樣的正常圖片,數量與正例一致便可。
爲了方便試驗,咱們能夠拿github上的Open nsfw model項目做測試。這個項目的Yahoo開源的不適合工做場景(Not Suitable for Work)圖片識別項目。 項目連接裏有已經訓練好的模型。也能夠經過增長本身的訓練集進行調優。
我試驗的Open nsfw系統(預先訓練的模型)判斷爲黃圖或不肯定的比例在10%左右,比較粗糙。但拿這個結果做爲調用阿里雲鑑黃接口的前置,能夠節省85%的費用。
而實際應用中,我增長了數據集並調優後,判斷爲黃圖或不肯定的比例在5%左右,實際節省了超過90%的費用。
更多省錢祕笈,請看: