人工智能發展至今,已經成爲新一輪科技革命的核心動力。過去的 AI 技術驅動重在算法模型的比拼,現在則更依賴場景化的技術實踐與應用落地。html
京東做爲全球最大零售商之一,涵蓋線上、線下實體、虛擬等多元化交易場景。目前京東每日產生相關日誌和內容已經達到 PB 級,經過算法的驅動,將這些海量數據與天然語言處理和計算機視覺技術相結合,爲多場景的用戶體驗和交易提高帶來巨大改善。git
2019年7月20日,「雲中生智,智創將來——京東人工智能技術應用實踐」京東雲開發者社區技術沙龍在北京舉辦。github
本期沙龍以計算機視覺、語音合成、NLP 等技術爲基礎,京東雲+ AI 在智慧零售、智能物流等領域的應用;揭祕京東無人倉如何利用 AI 指導分揀、識別等一系列生產活動;語音合成技術如何服務於京東內部場景和外部用戶以及計算機視覺在智慧零售的實踐。此外,咱們的講師還在現場帶領開發者深刻學習 NLP 模型算法,提供優質的實戰經驗與解決方案。算法
相關視頻資料已開源 https://v.qq.com/x/page/m0906...微信
衆所周知,商品識別技術被認爲是線上、線下智能零售的重要基礎。然而,商品數目繁多、不一樣類別外觀混淆度高,如何讓機器識別趨近乃至超過人眼斷定的精準度?這是許多計算機視覺科學家們一直致力解決的問題。在計算機視覺技術(如下簡稱爲「CV」)研究中有個專門的研究方向「細粒度圖像識別」(Fine-Grained Object Recognition)。網絡
相比於傳統的圖像識別或分類任務,細粒度圖像識別是對某一大類的不一樣小類進行類別的判斷,例如不一樣型號的飛機,不一樣型號的車輛,不一樣的鳥類等。因爲須要判別的類別都屬於一個大類,使得分類難度大大提高,不少類別之間的差別憑藉全局的特徵信息已經很難判斷,因此細粒度的圖像識別算法每每偏向於關注圖像的細節信息,須要網絡可以依據細節進行類別的判斷。架構
目前主流的細粒度識別方法主要分爲兩種。一種是基於檢測的方法,包括關鍵區域檢測和關鍵點檢測。這種方法經過對關鍵區域特徵的提取或者對關鍵區域進行類別的判斷來提升分類的準確度。可是這類方法大多須要使用額外的關鍵區域的標註信息,而且添加相應的檢測網絡。另一種是基於注意力的方法,相比於基於檢測的方法,這類方法每每不須要額外的標註,可是在實際使用時,須要注意力網絡的輔助,使得細粒度的圖像分類網絡相比於傳統的分類網絡須要更多的計算開銷。機器學習
基於對細粒度圖像識別本質的分析,京東AI提出基於打亂和重構的細粒度識別方法(Destruction and Construction Learninng),簡稱 DCL,如圖所示。ide
首先,爲了增長網絡對於細節特徵的表達能力,京東 AI 事業部將原始的圖像區域進行打亂,而後同時將原始圖像和「打亂」後的圖像輸入網絡進行訓練。這樣,原先全局的結構信息將不復存在,若是要同時同時識別原始圖像和「打亂後」的圖像,網絡只能依據更爲細節的特徵。可是打亂帶來了兩個問題,一個是打亂帶來的區域邊緣的噪聲,這將對網絡性能帶來負面的影響;另一個是全局信息的丟失,雖然細粒度識別任務中存在大量只能依據細節判斷類別的樣本,可是仍是存在外貌差別較大的樣本,好比麻雀和海鷗,因此不能讓這個信息徹底丟失。爲了解決這兩個問題,京東 AI 分別使用了對抗學習和重構網絡。對抗網絡的做用是幫助網絡判別因爲打亂帶來的邊緣噪聲。觀察打亂先後的圖片,其中最明顯的差別是打亂的圖片會存在大量的邊緣跳變,經過使用一個二分類來對打亂先後的圖片進行識別,可有效下降對於邊緣噪聲的關注度。重構網絡做用於特徵圖,首先對特徵圖進行降維,而後經過一系列數學變換將其轉變爲一個位置矩陣,矩陣上每個節點包含兩個值,分別表示網絡預測的該區域在原圖之中的位置,基於該預測結果和真實的位置擾亂狀況計算位置重構損失。性能
在總體的網絡訓練時,經過同時考慮分類損失、對抗損失和位置重構損失,使得 backbone 網絡既能關注局部細節,又能有效對抗邊緣噪聲,同時又能必定程度的保留全局信息,從而得到較好的細粒度特徵表達能力。
該方法在訓練時不依賴額外標註信息(如特定位置標註),在測試時不增長額外的計算開銷便可顯著提高分類準確率,同時增長參數量僅爲 ResNet50 的0.034%,即在新增長很是少許參數的狀況下就能夠較大提高分類模型性能,能夠有效應用到包括 ResNet,ResNeXT, SENet,VGGNet 在內的多種主流分類模型。該方法在 CUB-200-2011,Stanford Cars,FGVC-Aircraft 等幾個主要的細粒度圖像識別數據集上都取得了領先的指標。同時這個算法有很是好的推廣性,在不一樣的數據集上都有很是好的性能,在今年 CVPR 的 iMat Challenge(商品識別)、Fieldguide Challenge(蝴蝶和飛蛾識別)比賽中均取得第一名的成績。目前,這項技術已經應用於京東菜品識別、商品識別、人員的身份識別、時尚標籤識別等場景中。相關代碼也已開源在 https://github.com/JDAI-CV/DCL。
一般來講,一個傳統的對話系統由五個主要部分組成:
1.語音識別(ASR)將原始的語音信號轉換成文本信息;
2.天然語言理解(NLU)將識別出來的文本信息轉換爲機器能夠理解的語義表示;
3.對話管理(DM)基於對話的狀態判斷系統應該採起什麼動做,這裏的動做能夠理解爲機器須要表達什麼意思;
4.天然語言生成(NLG)將系統動做轉變成天然語言文本;
5.語音合成(TTS)將天然語言文本變成語音輸出給用戶。
上圖所示爲語音交互系統的總體流程。圖中分別爲剛剛介紹的對話系統中的五個模塊。這個架構圖能更清晰地看到每一個模塊的輸入輸出,以及各模塊之間的協做關係。
其中,NLU 是很是重要的模塊之一。NLU 的目標是將文本信息轉換爲可被機器處理的語義表示。其涵蓋領域很是普遍,包括句子檢測,分詞,詞性標註,句法分析,文本分類/聚類,文字角度,信息抽取/自動摘要,機器翻譯,自動問答,文本生成等多個領域。NLU 有三個基本功能,即領域分類和意圖識別、槽填充。
業界實現 NLU 的一種基礎作法是將基本分類和意圖分類兩個模型組合起來。常規的優化方法包括 Single-Label 和 Multi-Label。在工業界最經常使用的是 Single-Label,但其實 Multi-Label 是相對來講更合適的作法。同時還包括 Multi-model、Multi-Cast、Big-model 與 Small-model。
目前,基於 RNN 的深度學習模型在乎圖識別和槽位填充領域獲得了大量的應用, 《Attention-Based Recurrent Neural Network Models for Joint Intent Detection and Slot Filling》中介紹了使用 Attention-Based RNN 模型進行意圖識別和槽位填充的方法,做者提出將「alignment information」加入 Encoder-Decoder 模型,以及將「alignment information」和「attention」加入 RNN 這兩種解決槽位填充和意圖識別問題的模型。
實體抽取則能夠描述成一個序列標註問題,輸入是文本特徵,輸出是每一個詞或每一個字屬於實體的機率。傳統的機器學習模型,如 HMM、CRF 均可以用來解決該問題。若是數據量夠大,也可使用基於神經網絡的方法來作意圖識別和實體抽取,一般能夠取得更好的效果。
和基於規則的 NLU 相比,基於統計的方法徹底靠數據驅動,數據越多效果越好,同時模型也更加健壯。缺點是須要訓練數據,尤爲是若是使用深度學習,須要大量的數據。在實踐中,京東將這兩種方法一般結合起來使用:1)沒有數據的時候先基於規則,有數據了逐漸轉爲統計模型;2)基於統計的方法覆蓋絕大多數場景,在一些極端的場景下用基於規則的方法來保證效果。
人類對話與對話系統一個重要區別是它是否與現實相結合。結合外部知識庫是一種有可能彌補對話系統與人類之間背景知識差距的方法。
經常使用的深度學習模型引入知識有三種方法:第一種是將文本向量和知識向量拼接到一塊兒而後作分類;第二種是將知識向量經過門控控制文本向量的輸出;第三種是將前兩種方法結合,不只用門控引入文本向量,同時引入知識向量。基於此,根據數據的不一樣,京東 IOT 作了不一樣的嘗試。例如在 Memory Network 方面,京東 IOT 將普通的文本向量直接作預測輸出,將(B)與向量相乘造成一個權重,經過權重加權求和引入知識。
除此以外,京東 IOT 利用「召回+排序」的方法,包括文本召回、語義召回以及 ANN 召回,以及基於表達和和基於交互的排序,加強面向大規模文本庫糾錯系統/文本匹配的性能。
語音合成,又稱文語轉換(Text To Speech,TTS),是一種能夠將任意輸入文本轉換成相應語音的技術。
一個文本轉語音的合成系統一般包含三個處理階段,即文本處理、聲學參數預測和聲碼器。文本處理包括歸一化、分詞、多音字等;聲學參數預測將文本特徵轉換成聲學特徵;聲碼器則是把聲學特徵返合成聲音。
文本處理將輸入的文本轉換成細粒度的文本特徵。它包括文本歸一化、分詞、詞性標註、Grapheme to Phoneme(G2P)和多音字處理等環節。其中,文本歸一化解決了文本中的詞例還原及漢語文本同形異義詞的排歧等問題;分詞將漢語文本切成一個個詞語;詞性標註會是註明每一個詞是名詞、動詞或者形容詞等,有助於獲取哪裏是重音、哪裏須要停頓等韻律信息;G2P 則是將漢字變爲拼音的過程,其中包括對多音字的處理。經過以上方法提取文本特徵,將文本變成一個由文本特徵組成的序列。
聲學參數預測創建了從文本特徵到聲學特徵的映射。前幾年,業內廣泛使用「時長模型+聲學模型」的方法預測聲學參數。隨着技術的發展,特別是Sequence-to-Sequence 模型的出現,使得預測聲學模型的技術發生了較大的變革。Sequence-to-Sequence 是學習序列到序列的模型,在機器翻譯(NMT)等領域應用普遍。
Tacotron 模型便是在 Sequence-to-Sequence 基礎之上發展出來的。Tacotron 目前推出了兩代,Tacotron2 是最近主流的一個模型,它對輸入要求很低,只須要輸入音素序列,便可輸出 Mel-Spectrum 序列。結合 WaveNet 聲碼器,便可合成出高質量的聲音。雖然 Tacotron 聲稱是端到端的語音合成系統,可是咱們看到若是沒有文本歸一化的處理,輸入任意字符,合成正確的聲音仍是比較困難的。下圖是 Tacotron2 的系統結構,來源於 [3] 《NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MELSPECTROGRAMPREDICTIONS》。
聲碼器的做用是提取語音信號的特徵參量而且有能力恢復出原始語音。業界比較著名的聲碼器包括 STRAIGHT 和 WORLD等。此外,近年來出現的基於神經網絡的聲碼器也能夠取得較高的重構語音質量,好比 WaveNet,LPCNet 等。
京東的語音合成技術已經在京東讀書,京東京魚座 AI 音箱等產品落地。結合語音識別,語義理解等技術,京東的語音合成技術也已經在客服這個更加複雜的場景落地。今年,京東上線了語音智能客服機器人和物流外呼機器人等項目。語音智能客服機器人在6月18日當天接待超過兩萬人次,爲用戶提供智能語音應答服務,針對性的緩解了顧客電話諮詢排隊現象。
結合京東在零售方面的優點,京東人工智能事業部推出了全鏈路、跨行業的通用對話技術平臺。全鏈路是指在售前、售中、售後的任何環節,經過任何諮詢渠道,通用對話技術平臺均可以幫助商家提供更好的服務。在接到客戶的諮詢後,機器人會首先接待,若是不成功就會轉人工客服。人工客服在接待的過程當中,通用對話技術平臺會對前面的交流進行自動總結,自動將用戶的信息查詢出來,而且生成用戶信息小結,甚至能夠幫助生成回覆的答案。在接待結束後,會幫助商家檢查客服質量,沉澱數據用於對話機器人的再訓練等等。目前,京東智能客服已經在商務部、華西醫院等政務、醫療行業落地。
在電商領域,因爲商品庫存數量巨大,訂單碎片化,且配送需求多種多樣等特色,倉庫物流做業難度較其餘場景更加複雜,建設無人倉難度很是大。所以,儘管無人化是自動化倉儲物流系統的發展方向和目標,但長期以來僅僅停留在概念階段。可是,京東讓這一理想變成現實,實現業內首個全流程無人倉,覆蓋貨物入庫、存儲、包裝、分揀的全流程無人化做業,該無人倉在「618」期間經受住了海量訂單的檢驗,大幅提高了做業效率及準確率。
無人倉系統支撐了京東物流中小件、大件、冷鏈、B2B、跨境業務的倉儲運營及衆包,目前已建設 600 個倉庫,服務人數超過 500 萬,擁有 20 多座「亞洲一號」,其系統圍繞着倉庫、貨主、商品、庫存、單據組成了入庫、在庫、出庫衆多形態的業務做業模式。
下圖爲無人倉系統的總體架構:
最底層是雲平臺和物聯網平臺,系統都在京東雲平臺上運營,物聯網平臺則傳感器、傳感網絡等;其次是設備控制層,包含各類設備;再往上是調度層,是核心的一層,無人倉的效率主要是調度層;最上面是常規的業務系統,好比說製造業、流通領域、教育行業。
從無人倉的做業流程來看,核心技術主要包括自動存儲、混合碼垛、視覺檢驗、自動揀貨與分類等。例如,在貨物入庫、打包等環節,京東無人倉配備了 3 種不一樣型號的六軸機械臂,應用在入庫裝箱、揀貨、混合碼垛、分揀機器人供包 4 個場景下;另外在分揀場景中,京東引進了3 種不一樣型號的智能搬運機器人執行搬運任務,包括天狼智能存儲系統,地狼貨到人系統,AGV「小紅人」分揀系統等,能夠覆蓋倉內做業的絕大部分場景。
除此以外,京東使用了 2D 視覺識別、3D 視覺識別、以及由視覺技術與紅外測距組成的 2.5D 視覺技術,打造了「物流視覺智能中心」平臺,記錄數據,爲這些智能機器人安裝了「眼睛」,實現了機器與環境的主動交互。目前,該平臺能夠完成 IoT 集中化、數據管理集中化、計算資源集中化。
基於「物流視覺智能中心」平臺,在軟件方面,京東物流自主研發了能操控全局的智能控制系統——「倉儲大腦」,從倉儲到揀貨、打包,再到分揀、出倉,全部環節的無人化操做都由「倉儲大腦」自主決策與指揮。例如,在上海「亞洲一號」全流程無人倉內,智能大腦能在 0.2 秒內計算出 300 多個機器人的 680 億條可運行路徑,並作出最佳選擇。
人工智能算法是無人倉技術的核心,更是京東的優點所在,其在倉儲過程的各個環節中助力做業效率的大幅提高。例如,利用算法自動推薦最適合商品的存儲貨位;平衡揀選區和倉儲區的庫存量分佈,並決定最適合被揀選的貨位和庫存數量等。而在移動機器人獲得大規模應用的無人倉中,京東在算法上的優點更是獲得了充分的展現,如機器人調度及路徑規劃算法等。
當下,京東雲做爲京東集團各項技術能力的重要輸出窗口,正以全新的視角爲合做夥伴提供開放、賦能的平臺,並開放 23 個 AI 接口,秉承合做雙贏的態度,與開發者一塊兒,攜手邁向 AI 新將來,點擊閱讀原文便可 0 元試用京東 AI 接口~
關注京東雲開發者社區微信公衆號
回覆「PPT0720」獲取課程視頻&PPT。
點擊"京東雲"瞭解更多相關產品信息
歡迎點擊「京東雲」瞭解更多精彩
參考資料
[1] https://github.com/JDAI-CV/DCL
[2]《Attention-Based Recurrent Neural Network Models for Joint Intent Detection and Slot Filling》
[3]《NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAMPREDICTIONS》https://arxiv.org/pdf/1712.05...