人工智能取代人類的言論一直甚囂塵上,而深度學習算法經過大量的樣本數據也能幫助人工對圖像、視頻、音頻中的信息作出識別,本次採訪邀請到網易易盾的資深算法專家李雨珂,他將會爲你們解答深度學習在實際應用中的樣本攻防問題以及短時間內人工審覈在內容安全領域的不可替代性。算法
文/ 李雨珂安全
整理 / LiveVideoStack網絡
李雨珂:LiveVideoStack的讀者大家好,我是來自網易易盾的人工智能算法工程師,網易易盾是國內領先的內容安全和業務安全服務商。我我的很長時間都在從事算法應用相關的工做,目前主要負責推動人工智能算法在多媒體內容審覈中的應用,包括了藉助深度學習方法自動鑑別圖像、視頻、音頻中的不良信息。機器學習
李雨珂:會員營銷算法主要針對用戶將來行爲、偏好的預估,目前每每是傳統機器學習方法和深度方法結合使用。圖像算法和會員營銷算法相比在特徵、模型和評估上會有一些差別。特徵方面,圖像的特徵都是從整圖中提取的,不在須要額外輸入信息,而會員的屬性、歷史行爲等特徵須要額外進行關聯和收集,從因果關係上來講,一張圖片的內容決定了它的性質,而一個用戶的屬性、歷史行爲信息和他將來將要發生的行爲之間的關聯性其實不是很強。模型方面,圖像更可能是空間上的建模,而會員算法須要考慮時序方面的建模。評估方面,圖像任務每每能夠構建出相對充分的測試集,而會員營銷算法的評估更依賴線上的AB測試。ide
整體來講,會員營銷算法的難度在於問題自己的不肯定性,而內容安全領域內圖像算法的難點主要在於小目標、模糊目標和多尺度問題。實際上,除了圖像算法外,網易易盾在用戶相關的算法方面也有較好的積累,在內容安全、業務安全場景中也發揮着重要的做用。性能
李雨珂:咱們對大腦的認識是是極其有限的,深度學習和大腦的工做機制可以創建必定的聯繫,好比感覺野、層級結構的概念等等,但這種聯繫更可能是感官上的聯繫,生物大腦的複雜程度是現有的深度學習網絡不可比擬的,單獨一個神經元的結構和性質已經足以讓科研工做者投入長期的研究了。學習
從學習過程來看,深度網絡學習認識貓和狗的區別須要很是大量的樣本,而大腦只須要學習少許幾個例子就能夠作推理了。我我的以爲深度學習是一個很是好用的擬合器、分類器,而生物智能有更加全面的能力和潛力,包括推理方面。測試
李雨珂:網易易盾在這方面確實有不少投入。主要是從兩個方面來作的,一個是前期預防,另外一個是後期學習升級。預防方面,咱們會從數據擴充、數據加強、訓練方法、算法流程等方面着手,使咱們的算法模型自然地能夠應對一部分對抗的狀況。但因爲攻擊的成本相對較低,樣本變化新型多樣,因此在後期咱們會結合其餘圖像維度、用戶維度等技術手段進行更全面的分析,從而快速有效地緩解這一類問題,此外,咱們同時會迴流數據進行分析、優化,繼續增強模型的對抗能力。優化
李雨珂:從審覈準確率上來看,咱們發現機器其實在圖像任務上是能夠接近甚至超過人類的,但機器可能會在人類容易判斷的例子上犯錯,結合剛纔提到深度學習和人腦關係的問題,機器更像是死記硬背,而人工擁有觸類旁通的優點。人工智能
我以爲實際操做過程當中須要機器和人工更加有效地配合來提高審覈的效果,機器能夠協助人工減輕審覈負擔,人工能夠幫助機器提高自動化效果。因爲內容安全領域對審覈結果有很是高的要求,而人工有不可替代的優點,例如人工在簡單樣例上不容易犯錯,而且沒有樣本攻防的問題,因此機器徹底取代人工短時間來看並不現實。網易易盾擁有專業的內容審覈團隊,擁有完善的審覈運營策略,是易盾服務效果的重要保障。
李雨珂:網易易盾圖像算法在內容安全領域長期深耕細做,根據實際業務需求高效地、集中地進行了效果優化。在數據層面,咱們積累了海量的UGC數據並進行了有效的樣本挖掘;在算法層面,咱們針對業務場景作了不少網絡結構、訓練方法、模型融合上的定向優化,可以召回大量困難樣例;在效果保障方面,咱們擁有可靠的算法效果測試經驗和完善的測試流程。我以爲咱們的核心優點並非某一個小點,而是在解決內容安全相關問題的過程當中對每個算法細節都有高質量的把控。
李雨珂:這個問題也正是網易易盾正在關心的問題,數據的爆發式增加會給算法服務帶來巨大的壓力,易盾算法團隊在保證算法效果的同時也持續關注算法性能的提高,方法上主要是從模型壓縮和算法流程優化兩方面來進行的,目前來看,咱們的算法服務每過一個季度都會產生很是顯著的性能提高。另外一方面,數據的增加也對算法的肯定性提出了更高的要求,不然留給人工二次審覈的數據量會很是龐大,易盾算法團隊也在不斷努力來提升機器正確識別的比例。經過算法性能和算法輸出肯定性的提高,網易易盾有信心迎接爆發式增加流量的考驗。