亞馬遜(Amazon)人工智能助理 Alexa 應用大量數據訓練,以提高語音識別和應答的準確性,但亞馬遜從未透露提高 Alexa 準確性的細節,據 Bloomberg 報導亞馬遜在訓練 Alexa 時,有大量員工辨識分析數百萬條語音,因爲人類加入,語音助理提供服務的過程,就會面臨如何保護用戶隱私的問題,至今亞馬遜沒有給更好的解釋。 機器學習
機器學習技術應用時,人類參與數據的分析一般解釋爲數據註釋,這是天然語言辨識、翻譯、圖像辨識等技術應用的基礎工做之一,好比 Alexa 沒法準確辨識用戶的口音,不一樣地區重複的地名或其餘難以辨識的信息,技術研發時並無考慮到這些因素,應用就須要人類介入修正。性能
在全球有成千上萬亞馬遜公司、供貨商和合做方員工參與 Alexa 語音助理的工做,從技術層面來看,半監督學習的模式是提高機器學習技術效率的主要方式,但問題在於大多數用戶並不知道本身的語音可能被另外一我的聽到,同時語音可能包括用戶的隱私數據,且這些數據可能被人爲濫用,整個過程都得不到有效監管。學習
據 Bloomberg 報告顯示,當員工從 Alexa 語音助理聽到一些負面內容,一旦涉及執法機構調查,亞馬遜有可能提出這些語音數據,以前有案例 Alexa 語音當成庭審證據,更糟糕的是 Alaxa 部分員工會與其餘同事分享、討論聽到語音的有趣或尷尬的內容,此舉涉嫌侵犯用戶隱私。人工智能
亞馬遜聲明,人爲介入只爲幫助一小部分 Alexa 語音,以便改善用戶體驗,這有助於提高語音識別的準確率和升級天然語音理解系統,Alexa 才能爲用戶服務,但執行過程有嚴格的技術和操控限制,對任何濫用 Alexa 數據的行爲都是零容忍,員工沒法得到語音發出者的用戶數據,任何涉及我的隱私的資料都是保密的。翻譯