聲明:html
做爲度廠民工,也是一名開發者,仍是帶着很激動的心情參加完了整整一天的大會,以爲這篇文章是軟文,扯淡,吹牛逼的能夠點關閉了程序員
非AI專業開發者,只是應用層的開發者,對裏面不少AI的技術可能解讀的有誤區,但從應用層的開發者角度來說,這些咱們接觸不到難以理解的深層技術,以開放的形式提供給應用層廣大開發者,將會給咱們打來巨大的機會和挑戰,很是很是期待算法
PS:這實際上是一片流水帳數據庫
大會10點開始,由於會場有不少現場體驗區,有不少智能設備和技術的現場講解,所以早上8:30就開放檢票入場,一層大廳除了檢票入口,最吸引人的當屬無人車停放區了,整個區域大概有7-8量無人車,分別來自不一樣的汽車廠商,有專門的資料介紹各大廠商的合做進展,無人車能夠進入車內參觀,但不能發動試駕╮(╯_╰)╭。排隊的人太多,我只是在外面匆匆瞄了一眼,就離開去別的展區了,印象最深的就是車裏好大一塊電子屏幕。編程
從照片裏那個電梯上了三樓就看到了小度機器人,眼前的這個小度機器人的喚醒方式仍是經過麥克風上面的按鍵,說話前按下麥克風的按鍵來交流,現場開放給全部訪客能夠自由的跟小度FreeStyle對話,有一種程序員祖師爺定義的圖靈測試即視感,每一個人均可以當場和小度機器人正常的天然聊天,看看小度經過沒。網絡
我前面一些人問今每天氣咋樣?別的城市天氣咋樣
,你是男的女的?
,你喜歡吃啥?
之類的話,我接到麥克風張嘴問給爺笑一個
,小度第一次聽成了香港,balabala介紹了一堆香港這個城市,放慢點速度又說了一遍,而後機器人沒說話,放比較歡快的音樂,眼睛的顯示屏一會出現桃心,一會出現眯眼,我估計這就是笑的表情吧?我在那裏停留了大概10分鐘左右,前後幾我的和小度對話,雖然沒有涉及太複雜的溝通,小度的識別率和答案還算湊合,仍是有bad case的,但也很少。併發
預告:app
這裏面有一些關鍵的技術詞,會在後面的體驗和大會論壇上屢次說起框架
- Unit 天然語言處理NLP下的多輪語音上下文交流技術
- 喚醒詞技術 語音識別,天然對話的喚醒詞技術
在通過一個轉角又上了一層樓,就來到了最集中的現場體驗區,主要有2塊iphone
DuerOS 喚醒萬物
爲主題的,生活智能家居,智能設備體驗區AI 開放平臺
爲主題的,開放技術,開放API,講解展現區DuerOS是一套涵蓋了專屬的硬件芯片,專門的軟件系統,可讓任何搭載DuerOS的硬件設備實現語音對話,智能控制的的一整套軟硬件體系,我理解喚醒萬物
這個詞的意思就是,你能夠用對話的方式和任何硬件設備進行交流,不在依賴遙控器,面板,按鈕,開關。
這麼大一個冰箱仍是挺顯眼的,海爾的冰箱,搭載了DuerOS系統
冰箱旁邊有有個大電視,由於如今電視已經挺智能了,各類軟件又多又全,遊戲,購物,看電視,啥都能幹沒什麼稀奇的,因此這個展區最大的吸引力仍是,喚醒萬物
的語音控制,扔掉遙控器,用天然地方式,控制智能電視裏強大的能力,這電視好像是和TCL合做的
在電視牆的背後不太被人關注的角落,放着這麼五個盒子,這五個盒子就厲害了,這就是DuerOS芯片開發套件,後面還會屢次說起這個開發者套件,用這個套件,你就能夠將語音控制的能力/語音對話/語音助手的能力,Diy進入本身的設備裏面了,廣告宣傳語是,你能夠Diy一個專屬於本身的大白
,並且這還不僅是宣傳,停留在嘴炮上的ppt宣講,真正主會場的時候,真的就迎來了驚喜,先賣個關子。
這個會場還有2個DuerOS已經投入生產投入市場,有合做方已經制做出產品的很優秀的落地的例子,我沒拍照片,但後面的大會上屢次說起
有一點感覺是,DuerOS打出來的宣傳概念,每一項都已經有具體的落地,而且有具體的合做廠商已經投入生產和市場了,並且合做廠商不少不止一家,我的感受這個仍是挺乾貨的,不是在炒概念,這段是否是有點像廣告軟文╮(╯_╰)╭
這裏就是開發者最關注的,各類開放API的展現區了,港真,還真是挺帶感的!技術涵蓋
語音合成/語音識別
語音合成和語音識別這個來自IDL語音組的開放API,均可以申請開通使用
語音合成主要用在聽書,播報文字,會場上的展現手機上就安裝着咱們的百度閱讀
App,在年初百度閱讀的發佈會上就展現過這樣技術,並不是是像喜馬拉雅那樣純人工錄音,也並不是是像高德導航那樣純人工錄音而後組合,而是經過錄音採集特定人的聲紋樣本,而後擬合出任意的對話,case就是韓喬生版真人音色的聲音合成,聽着還真的挺有韓喬生的味道!有一段宣傳視頻,目的是讓在異鄉打工的家長,可以定製本身的獨特聲紋語音,而後讓孩子在家鄉聽到媽媽的聲音講故事,仍是挺感人的。
語音識別主要用在語音輸入場景,語音錄入各類聲音,咱們的百度文庫
App其實也接入了語音錄入文檔資料,當時開發接入的時候,嘗試用音樂/廣播/普通話/四川話/陝西話,總體識別效果在咱們App當初接入的時候就感受已經很是不錯了,識別率仍是至關準的,而且還能識別語氣從而產生標點符號,問號,逗號,歎號。而此次大會語音組又開放了更多語音識別方面的黑科技,進場耳語識別,遠場識別等。
SLAM/機器人視覺
SLAM (simultaneous localization and mapping),也稱爲CML (Concurrent Mapping and Localization), 即時定位與地圖構建,或併發建圖與定位。 SLAM最先由Smith、Self和Cheeseman於1988年提出。 因爲其重要的理論與應用價值,被不少學者認爲是實現真正全自主移動機器人的關鍵。
簡單的說就是將攝像頭拍攝出來的畫面,經過AI進行分析和識別,識別出其中的物體,以及所佔的空間位置,識別出空間區域,在計算機的數據中對真實空間區域進行3D建模,從而能讓機器知道,攝像頭中的這個畫面,哪裏是障礙物,哪裏是可通行區域,障礙物都是一些什麼東西,整個空間的全方位真實信息,會從新在機器人的虛擬數據中從新3D徹底還原。
與這塊的工做人員聊天,工做人員說目前這塊主要運用在機器人或者AR上,圖中就是一我的拿着採集器在超市裏走來走去,而後建模成整個超時的3D場景的示例。但除了AR這塊也能夠運用在無人駕駛上,但如今百度的無人駕駛Apollo系統用的仍是激光探測,硬件成本仍是有不小的。
SLAM也是AR種最重要的一環,AR不只僅是在手機APP的攝像頭中扔一個3D遊戲,AR須要識別現實空間中的區域和物體屬性,從而進行匹配的3D交互,所以有SLAM能力的AR纔是真·AR
說道SLAM,不得不提微軟
視頻截圖
裸眼3D
這個顯示屏其實展現的就是裸眼3D,照片拍不出來,但現場親臨的感受3D效果仍是有的,能感受出來,但也並非特別真,有一點點晃眼
AR開放平臺
這是一個AR宣傳片的截圖,現場是能夠用手機百度
掃Marker來體驗的,但因爲排的人特別多,我也沒使勁往裏面擠,高考期間咱們事業部和AR部門合做作的高考校驗項目,磁感線右手定則
也在現場可體驗的內容裏,還有手機掃變形金剛大黃蜂的遊戲
貼個當初高考活動時候的圖吧~
下午的開放平臺分論壇會專門介紹AR
知識圖譜 開放API
廠裏的搜索用到的知識圖譜,如今初步框架也在本次開放的API以內,不過目前開放的不是已經構建好的那部分泛生活類知識圖譜,而是開放一套搭建自有知識圖譜的開放工具,以及數據協議準則,是一套構建圖譜的schema,以及錄入schema製做本身圖譜數據的工具,以及根據已有圖譜數據,從任意文章中抽取圖譜相關信息的抽取工具。
簡單的說目前開放的是一套,搭建本身專屬圖譜數據的協議設計+開發工具,開發者可使用這套工具,自建本身的知識圖譜,知識圖譜的數據保存在本身的手裏。
因此,知識圖譜開放的API,並非直接將百度搜索如今使用的那套圖譜數據以API的方式提供,而是提供的可讓開發者自建自有知識圖譜的工具。尤爲是垂類領域,金融/教育,能夠根據這個工具,去運用本身掌握的內容搭建自有圖譜,廠裏如今的搜索用的那套圖譜,偏生活,偏普遍,在細分垂淚領域,和工做人員交流,效果並非很好。
Unit多輪對話
前面提到的小度機器人/HTC手機/DuerOS內部,都有Unit這個強大的天然語言處理系統的工具,他最大的特色可以識別上下文多條對話之間的關聯,之間的指代關係,之間的前後順序和邏輯,這和傳統的只侷限在一問一答的語音助手領先不少不少。
Unit在主論壇/開放平臺分論壇的大會演講上也有屢次說起
開放雲
這塊我沒咋細看細聽解說╮(╯_╰)╭
主大會相信各大媒體,以及各方乾貨總結文章都報道了很多,能夠看看這個網頁
QI的演講很是的有激情,很是的有感染力,尤爲是一些具體的成果展現,常常激起在場的一陣陣高潮,上午的主大會主要講了3個東西
我相信你們都看了不少官方資料,看了不少官方提煉的乾貨信息,但有些現場的展現環節,真刀真槍的現場實幹寫代碼環節,仍是很是厲害的,乾貨提煉裏不見得有,我這邊就多囉嗦囉嗦
DuerOS前文提到過,是專爲各類智能硬件設備提供的一站式開發套件,讓任意設備具有巨有語音交互/天然語言處理能力,涵蓋軟件系統,硬件芯片的全方位開發者套件。從上文的ppt裏也能看到,DuerOS已經對接了幾十家合做夥伴了,都有具體的硬件產品落地了,就像我上面說的,有這麼多落地產品,這麼多幹貨,仍是很使人驚訝的。
HTC手機搭載的DuerOS度祕 -- 強大的Unit
一個視頻展現瞭如今就已經搭載在HTC某款手機上的語音助手,全程語音與度祕交談(記得大概劇情,記得不是很清楚了)
上下文對話中對於各類不一樣句子之間的指代識別的很精準。
DuerOS芯片開發套件,意外的開發者,意外的合做商
現場展現了一封百度收到的一封嵌入式工程師發來的郵件(忘了叫啥了),是一個小故事
開發者有個小侄子很喜歡樂高,而且但願能有一個會說話的樂高玩具陪着他,開發者答應了小侄子的請求
這個開發者看到了DuerOS的早期宣傳,發來一封郵件,但願能參與內測,用DuerOS芯片給小侄子的樂高玩具作成能夠聊天對話的機器人,他不但願小侄子失望
DuerOS的工程師們,將一個芯片套件以及相關開發文檔郵寄給了他
這個開發者成功的將小侄子的樂高玩具,加以改造,變成了能聊天講笑話的玩具機器人
故事的主人公和小侄子都來到了現場,同時來到現場的還有樂高的高層,做爲DuerOS的合做夥伴,樂高會和百度一塊兒在這個領域探索出新的世界。
會場DuerOS的經理主講人,還現場從兜裏掏出了四個芯片詳細介紹了這個開放給開發者的DuerOS開發者解決套件,就是前邊我在展區拍到過的那幾個芯片
Talk Is Cheap Show Me Your Code
QI在現場介紹,百度將在美國成立人工智能部門,而且收購被Amazon Alexer點評的國外最優秀的AI創業公司之一 KITT.AI,創始人陳果果,他曾在Google實習,參與制做了「OK Google」熱詞檢測雛形,在語音喚醒詞上,有着很是龐大和豐富的積累。
陳果果還現場演示了一段喚醒詞訓練,經過簡單的重複語聊錄製,現場控制將一臺筆記本生命名爲景鯤
(主講人),能夠名字呼喚控制這檯筆記本。
不止如此,現場的DuerOS工程師,還將一款在國外售賣的搭載Amazon Alexa系統的智能硬件(好像是個音箱,記不得了),現場編程,用很快不多很簡潔的代碼,當場將音箱接入了DuerOS。
雖說這些現場訓練模型
,現場編寫代碼
都確定是預先排練過不少次的,但程序員有句俗話Talk Is Cheap Show Me Your Code
,這一點仍是很使人興奮的
AI大會就不得不提自動駕駛,11點左右的時候,廠長Robin坐在自動駕駛車的副坐,從五環發來賀電。廠長在五環遠程連線的視頻(而後五環堵車堵的12點還沒到國家會議中心╮(╯_╰)╭,後來還有啥交管部門接入調查的新聞,各類討論技術倒逼法律前進等,深入感受此次pr的效果有點意思)
Apollo是一個開放給開發者的自動駕駛開放平臺,不止是百度與合做汽車廠商,任何開發者均可以藉助apollo的能力,從0到1,擁有本身的智能汽車。(有點作廣告嫌疑╮(╯_╰)╭)
Apollo會逐漸開放如下能力給全部開發者。
這裏不得不說一個插曲,Robin在12點多的時候終於從五環趕到了現場,整個過程當中Robin乘坐了2輛自動駕駛汽車,一輛是視頻中的那輛,快到現場Robin又換了一輛黑色的車,通過後來Robin到場後的解說,這兩黑色的自動駕駛汽車,來自一位美國的小哥,用3天時間,將一輛車打形成Apollo自動駕駛汽車,Robin就是坐着這輛車來到了會場,而且這位小哥也來到了現場。
Apollo就是這樣開放給全部開發者的,而且如今有幾十家合做方已經投入生產。
DuerOS和Apollo以後,QI重點介紹了百度的AI開放生態,將會全面開放百度大腦的全方位能力,打造AI開放平臺,深度學習平臺,而且與NVIDIA和Intel深度合做,而且創建Apollo基金,DuerOS基金,扶植開發者,創建AIStar計劃賦值開發者。
身爲開發者固然會關注與具體開放了哪些內容。不少內容都在上面發的ppt裏面,這裏就簡單羅列一下
開放60項核心AI能力
下午專門有一個分會場,會進一步討論AI技術與開放平臺,我下午就參加的這一場
廠長終於在上午會場的尾聲趕來了現場,用了一個在場全部開發者,全部程序員都很是熟悉的一個梗來開場,造輪子
,會場不少人看到這個圖的時候都會心的笑了。
今天的大會是給開發者的,因此Robin說:開發者是推進進步的偉大力量,天下開發者是一家,分享與合做是這個時代的聚寶盆
廠長講笑話:
在收購KITT.AI的時候,層和投資部門聊天,投資部門問,若是競爭對手想出高價收購咋辦,Robin說,咱們的競爭對手從不收購純技術公司,只收購成熟產品形態,變現產品形態
上午的大會就結束了,短暫的休息後,下午將會同時開啓不少分會場
我參加的AI技術與開放平臺專場,深刻的講了不少上文提到的 開放60項核心AI能力
這個分會場就是專爲開發者量身定作了,全程都在講解相關AI技術如今優點,開放的程度,每個都配備了比較豐富的業務應用場景,開放平臺交到開發者手裏,剩下的就是比拼創造力的時候了,這個會場主要講了
現場展現了工做人員,小聲輕聲說話,還有唱歌歌詞識別,近場指嘴對着麥克風說話
遠場識別是如今語音識別技術裏頗有挑戰的領域,而在DuerOS的各大智能家電使用場景中,全部的對話,都不是直接對着麥克風的,而是在房間中空間中直接發聲,這類識別技術,現場展現的視頻中,已經實現了10米以上的遠場聲音識別,而且適配了中國家庭,戶型偏小,狹窄的特色
一方面就是前文提到的,在聲音合成方面,追求極致的天然音色,經過對真人/明星的聲紋採樣,訓練學習後,直接用AI擬合發生出採樣人的定製化音色語音。現場展現了韓喬生語音包。
一方面能夠在文字語音朗讀的時候,針對中文,定製化中文語音朗讀的節奏和語氣,定製化TTS,經過國際通用的SSML標籤語言能夠定製朗讀節奏,斷詞斷句規則,也擴展了百度定製中文標籤,能夠支持純中文的諸如古詩詞,古文的朗讀規則。
看到合做夥伴的時候展現了十幾家,其中竟然看到了特斯拉的身影
天然語言處理是自從搜索引擎誕生之初就存在的AI技術,涵蓋的場景領域很是多。
爲此NLP開放了多個場景的開放API
NPL開放的基礎API還不是最大的亮點,Unit纔是NLP部門本次展現的重頭戲,Unit-理解與交互技術平臺,能夠被普遍運用在車載/客服/家居等應用場景,現場又是一個更爲厲害的多輪語音交流案例
展現錄像處於開車中:(看着像巨堵的馬連窪這邊的路╮(╯_╰)╭)(記得也是有點不太清楚了,對話是個大概)
這全套Unit多輪對話技術都是對外開放能夠接入任意語音對話場景。
最牛逼的仍是訓練師系統
訓練師
是一個天然語言模型訓練工具,這套工具不須要使用代碼進行開發,任何人能夠不寫一行代碼,經過可視化的界面,填填網頁,謝謝表格,配配需求,從而直接生成本身專屬的定製化的AI對話助手,而且提供可視化的訓練調優工具,能夠親自與配置生成的助手進行對話,看助手的回答是否正確,標記助手的不正確回答,從而反覆訓練天然語言模型,最終訓練出一個自定義需求的語音助手
訓練師
的可視化工具可讓任何非編程人員參與進來,不少客服人員已經從親自人工接線,轉變成了客服語音AI訓練師了。
在大會現場就展現了一個視頻,視頻是一個利用訓練師系統,從0構建了一個爲女友準備的,生活電影語音小助手,全程沒寫一行代碼,就一直是在填填,寫寫,配配,改改,調教,校訂,對話,訓練。
對於視頻技術,這個環節講了更多酷炫的東西
視頻不一樣於文字信息,在摘要節選,結構化,從而方便進行數據處理的時候,有很大的困難,因此開放平臺提供了一系列挖掘識別視頻內容,從而結構化視頻數據的功能,分析挖掘視頻中的有關鍵意義的幀,從而找到最恰當表達視頻意圖的一幀,能夠方便的用於視頻縮略圖介紹,挖掘視頻的信息,對視頻進行分類和打Tag,這對後續大數據運算甚至知識圖譜都有很重要的意義,而視頻內容的索引和檢索,能夠支持從海量視頻裏,查找具備相同畫面的視頻
這就都是圖形識別了,識別視頻中的物體內容,甚相當聯大數據後,能夠直接定位細粒度的物品信息,以下圖所示,不在只識別一個車,而是識別出車牌,車型號。
並且還能夠對視頻進行結構化分析,以下圖對於一個電視節目,能夠直接識別出字幕/臺標/語音/人臉,最後產出結構化數據
人臉識別的快速準確度已經提升的很是大,所以這項技術已經全面在不少安檢,購物,金融場景有真實的業務運用了,下面這張圖挺厲害的!圖中右邊的那塊屏幕看起來就是百度科技園區,裏面就是平時行走在園區內小路的咱們,而上面的實時人臉識別都在第一時間定位到了出如今畫面裏的每個人,每個人的詳細信息,而且最可怕的是戴着口罩也照樣精準定位數據庫中的信息。
前面聊了一堆SLAM,沒錯這裏就是開放的機器人視覺&SLAM,前邊其實扯了很多了,就不繼續說了,光列一些降到的技術吧
如今市面上AR解決方案的公司也很多了,Vuforia
(高通的)/Metaio
(蘋果收購)/EasyAR
(國產自研)等,本次開發者大會推出了DuMixAR 開放平臺,主要包含
整個SDK中包含了不少技術,本地識別/圖片跟蹤/IMU/SLAM/錄屏/語音交互/內容解析/透明視頻等,剛纔提到的不少最新的視頻技術
從製做-分發一整套服務,製做出來的AR Case都是能夠動態更新的,只要預先把整個SDK內置進入app,而且部署好相關的功能,之後每作好一個AR Case,均可以直接上傳雲端,動態下發給App從而實現動態更新AR Case的效果。
說道AR怎能不看看效果,有一個視頻我沒錄製下來,屋子裏有一棵真的聖誕樹,而後用AR渲染出來的3D小鹿在聖誕樹裏飛,AR的效果已經能作到,當小鹿飛到聖誕樹的後面的時候,會被聖誕樹遮擋住,還有個視頻能夠看到一隻小度熊在一朵花上跳舞。
不過最酷炫的視頻Case已經錄製下來了
Google出的TensorFlow
想必你們都據說而且瞭解了,此次廠裏的AI開放平臺很重要的一個內容就是也開放一個深度學習的開源工具與平臺,PaddlePaddle
而且廠裏將PaddlePaddle
與本身的雲計算技術相結合,將會提供一整套深度學習解決方案,在這套技術方案下實現ABC Ai Bigdata Cloud (好吧我是真不太懂這方面,不知道怎麼編詞了,直接上圖吧。。。)
而且還會開放不少模型庫
碰見了將來,就要由廣大開發者一塊兒創造將來