技術公認第一後,百度NLP正在完成產業落地的全面領先

文 | 曾響鈴算法

來源 | 科技向令說(xiangling0815)編程

當AI發展借新基建東風進一步加速後,每一個垂直門類都開始表現出一邊深化技術、一邊廣拓生態的兩大特徵。工具

最近的百度大腦語言與知識技術峯會直接表現了這一點。佈局

一次性推出11項發佈,AI技術的大規模應用進程被行業巨頭加快,而正如百度CTO王海峯所言,「在百度語言與知識技術的佈局和發展中,咱們始終在注意把握兩個趨勢,即技術發展趨勢和產業發展趨勢,併力爭引領趨勢。」 做爲AI皇冠上的明珠,NLP在一邊繼續進行技術深化的同時,產業落地也開始齊頭並進。學習

 

若是從2010年百度成立天然語言處理部算起,NLP從技術和產業上全面佈局已經走過整整十個年頭。優化

做爲AI領域發展時間最久、積累最豐厚的垂直領域,NLP正在嘗試塑造出一個產業智能化從技術到應用的完整範式,對百度而言,這張AI王牌中的王牌也是時候打出手了。網站

1、密集發佈技術成果後,NLP巨頭的產業落地呈現三大特徵.net

巨頭的密集動做,直接表現出NLP這個AI排頭兵在產業落地上的三大特徵。翻譯

一、技術「稱王」後,領頭羊正在擔起行業責任設計

過去十年,百度大腦在NLP領域積累了大量的技術成果,例如包括國家科技進步獎在內的20多個獎項,30多項國際競賽冠軍,發表學術論文超過300篇,申請專利2000多項。

長期的數據和技術沉澱讓百度NLP在國內處在了領先的位置,成爲中國NLP發展的一面旗幟。而這種沉澱即使放到國際視野下,仍然能夠支撐百度進入NLP頭部梯隊,表明中國AI在關鍵的語言和知識垂直領域佔據重要的席位,得到行業話語權。

 

根據公開資料整理

在以絕對的技術「稱王」後,百度同時承擔起推進技術產業化落地的責任。此次推出的中文天然語言處理數據共建計劃『千言』和語言與知識技術算力共享計劃,是領頭羊承擔行業責任、推進包括友商在內的行業共同進步的體現,已經脫離競爭範疇。

以算力共享計劃爲例,百度準備在該計劃中,面向廣大開發者和研究人員開放共享百度的算力,初步投入約1億元的資源,邀請不只限於百度語言與知識開源開放技術用戶還包括更多的中文語言與知識技術開發者、研究人員無償使用這些算力。

千言數據共建計劃也有相似的資源共享屬性,在這兩大計劃加持下,百度NLP將以整個行業的姿態共同解決發展中的技術挑戰。

二、矩陣式產品推動,已成爲NLP產業落地的「新常態」

細數這次百度大腦新發布或升級的幾個主要產品,包括:

文心ERNIE語義理解技術與平臺,面向開發者提供各類NLP開發資源和能力;

TextMind智能文檔分析平臺,面向企業文檔的規範化;

智能創做平臺,面向創做者提供的一個高集成度的內容創做平臺,功能方面進行了升級;

UNIT智能對話與定製服務平臺,各大廠AI都在搞的服務,百度作得最先,如今從新整合進行了一次升級;

AI同傳會議解決方案,利用前沿NLP技術構建的企業翻譯解決方案。

一股腦推出這些產品,代表NLP巨頭在產業落地時典型的矩陣化特徵。這其中既有百度本來就佔據優點的業務(例如UNIT、智能創做平臺)的再升級,也有根據市場須要新開發的能力,例如文心ERNIE、TextMind;

換一個角度看,這個矩陣也顯示出百度NLP既能實現最底層的賦能,也能走向臺前完成一線解決方案的塑造。

以AI同傳會議解決方案爲例,隨着技術不斷突破,結合產品設計,同傳這個被認爲是難度頗高的NLP領域已經能夠實用。百度新發布AI同傳會議解決方案,讓企業能夠在只用一臺電腦,一部手機的狀況下就能快速搭建一套同傳服務,參會人員能夠選擇屬於本身的語種,同傳服務成爲語言轉換的高效率「樞紐」。

 

回過頭來看,也只有NLP方面有深度積累的巨頭才能完成這樣的產業落地矩陣構建。

三、「降落傘」規則,支撐AI技術落地走得更穩

合格率99.9%的降落傘會致使每千名士兵有一人由於產品不合格而失去生命,當軍方要求生產廠家負責人本身親身檢測產品後,「難以突破的」合格率立刻被提到了100%。

這個二戰典故帶來的「降落傘」規則在不少當代產業合做中被實踐,百度NLP也是如此,不少產品或解決方案都有應用在百度龐大的互聯網、科技生態中的「經歷」。

例如,在百度移動生態的內容推薦及內容審覈中,已經普遍存在NLP的身影,即使到了視聽內容時代,百度在視頻推薦方面超越行業的內容理解能力,一樣有NLP的功勞。

而不止於移動生態,百度多樣化業務佈局中也存在NLP的印記,例如領先行業的金融信貸風控能力,或者百度最近大力推動的智慧醫療,其中涉及語義和知識也須要NLP加持。

2、破解「既要-又要」難題,語言與知識領域的AI已經完成三大挑戰

NLP產業應用每每面臨「既要-又要」的表面矛盾,而所謂的產業落地,某種程度上就是破解這些「沒法兼得」矛盾的過程。

這從百度NLP的產品或解決方案中可見一斑。

一、既要通用性的便利,又要定製化的深度

一方面,因爲通用性,產業開發者能夠基於共有的方案快速實現產品或解決方案的部署及上線;另外一方面,隨着產業智能化走向深度,不一樣產業客戶每每都開始追求屬於本身獨特的定製化能力。

這種通用性和定製化的矛盾,隨着產業對AI追求深化將愈來愈明顯。

能夠看到,百度NLP這次的動做,愈來愈貼合「魚和熊掌兼得」的現實須要。以語義理解技術與平臺文心ERNIE爲例,一站式能力即可以實現解決方案的快速部署適配,也可以知足開發者的個性化需求。

 

這是由於,深度學習平臺飛槳上打造的文心,除了享受到飛槳賦予的能力,還依託於百度領先的NLP技術,集成了預訓練模型、算法集、開發套件、平臺化服務,這些使得開發者既可以更簡單地製做本身的NLP模型,也可以便捷地融入企業的特殊須要。

通俗地說,這是一片已經耕好的黑土地,只要撒入不一樣做物的種子,就能快速長出本身想要的莊稼。

二、既要成本低,又要效率高,還要「體驗」好

NLP產業落地還有牽扯要素更多的「我全都要」現象——在應用開發過程當中,由於降本增效的主旋律,但願成本可以更低、效率能夠更高,而開發者在龐雜的開發工做面前又每每還但願體驗可以更好。

若是在過去,這種需求大概會被技術服務方懟回來,但隨着平臺化能力的提高,NLP已經徹底具有了知足這種矛盾需求的能力。

仍然以文心爲例,它全面下降了NLP的定製開發成本,在強大語義理解能力下對數據標註廣度和深度要求下降——90%準確度的模型,過去須要5100條數據,如今可能只要220條數據;在算力上也相似,因爲集成了ERNIE預訓練模型,企業只須要單機微調便可取得世界領先效果的NLP模型,極大下降算力成本。

 

能夠看出,這種成本的下降伴隨着效率的提高,兩者是一體兩面的關係。而更進一步看,對實際參與開發工做的開發者而言,僅須要配置或編寫少許代碼即可完成從模型訓練到模型評估,1周的工做1天完成,這自己也是一種體驗上的優化。

相似的還有UNIT智能對話與定製服務平臺,在本次升級後數據標註成本的進一步下降30%以上。重點場景預置的場景化解決方案,可以幫助開發者以更低的成本、更高的效率完成智能對話系統的構建,而這種構建也不須要長篇大論、邏輯複雜的編程,只須要調用對應的模塊便可。

 

三、既要單環節強化,也要全鏈條深刻

「既全且深」在過去是NLP開發者對平臺服務的美好理想,既可以提供全面的服務,每一個細分服務還可以作到足夠得深。

如今,這種理想已經變成現實,它一樣得益於技術和服務的長期積累。

以百度NLP智能創做平臺爲例,該平臺一年多以來的自動創做文章累計200萬+,至關一個10人團隊至少工做45年;「圖文轉視頻能力」上線4個月,被7000多家客戶使用,自動創做短視頻15萬,至關於一我的至少要工做100年。

 

在此基礎上,智能創做平臺進行了再升級,一次性推出囊括智能策劃、智能採編和智能審校全鏈條的3大場景方案,而每一個環節,都十分深度而不僅是簡單的佈局。

例如,在智能採編環節,藉助融合文本、視覺、語音的跨模態AI技術,一方面提供文章創做多樣、易用的工具,另外一方面,還整合了視頻編輯、圖文與視頻互相轉換等視頻生產實用能力,實際應用能夠幫助視頻生產速度達到原有的6倍。

能夠認爲,在百度等巨頭的積極探索下,過去NLP領域那些不可能、充滿矛盾的產業應用需求,最終將變得稀鬆日常。

3、讓AI強者恆強的「自加強循環」,此次AI巨頭又有了新的玩法

在AI發展領域有典型的來自實踐的「自加強循環」現象,即在深度積累下不斷在自身業務、產業領域進行實踐,將成果反饋,推進算法、數據等不斷進步,自我強化,對行業的領先像滾雪球同樣越滾越大。

例如,百度NLP領先行業的UNIT,自發布以來,2.7萬多開發者在平臺累積知識條目總量2.4億,支撐了超過10萬個智能對話應用,與最終用戶總計進行了超過4200億次交互。

這些實踐的強化,反過來讓UNIT能力更上一層樓,推出更多更低成本、更高效率、更好開發體驗的服務,這種正向循環讓UNIT超越競品愈來愈多。

 

所謂的「強者恆強」,其實根本上就是來自於這種「自加強循環」。

如今,百度在NLP領域推動這種「自加強循環」又多了一種玩法。若是說過去的「自加強」過程是在本身的地盤中實踐推動,那麼百度這次推出的行業計劃,則帶有聯合整個行業共同完成「自加強循環」的意味。

這次百度NLP推出的千言開源數據計劃十分典型。

 

在百度的構想中,它試圖「團結」來自國內多家高校和企業的數據資源研發者,共同建設這樣一個數據項目,在更多的「同行」加入下,得到更豐富的任務類型、更多的開源數據集合。

這樣作的好處,是讓計劃中的每個參與者都能享受到整個行業的數據和模型積累,從複雜知識構建、語義理解、知識融合、多模態融合等角度推進技術的進步,畢竟,百度NLP積累再多,也少於整個行業,而NLP又是一個極度依賴積累的AI垂直領域。

千言第一期總共涵蓋了7大任務,20多箇中文開源數據集合,這會是百度另外一種「自加強循環」的開啓,只不過,它依靠的是整個行業橫向而不是自身實踐縱向的推動力量,也將惠及整個行業。

 

經過行業共建的方式汲取精華得到羣策羣力的成長,這是百度AI、NLP更大的手筆。

以這樣的視角再來看百度在這次峯會上推出以王海峯爲表明的百度NLP「十年十人」,能夠認爲,百度NLP在十年發展後,已經不單被定義爲一種屬於企業個體的優點技術,更成爲百度推進機器更好地理解世界、服務於人這種技術信仰的典型表明,實現着更高維度的技術情懷。

 

總而言之,已經完成「技術扛鼎」的百度NLP,重心已經轉移到了產業落地上。做爲走在NLP應用於產業智能化最前線的巨頭,百度走出了有自身調性的路子,也經過知足產業更復雜深度的方式來得到更普遍的承認,以及相對競爭對手的優點。與此同時,從競爭到競合的行業態勢,也經過百度的引導開始發生在NLP領域。

*此內容爲【科技向令說】原創,未經受權,任何人不得以任何方式使用,包括轉載、摘編、複製或創建鏡像。

【完】

曾響鈴

1鈦媒體、品途、人人都是產品經理等多家創投、科技網站年度十大做者;

2虎嘯獎評委;

3做家:【移動互聯網+ 新常態下的商業機會】等暢銷書做者;

4《中國經營報》《商界》《商界評論》《銷售與市場》等近十家報刊、雜誌特約評論員;

5鈦媒體、36kr、虎嗅、界面、澎湃新聞等近80家專欄做者;

6「腦藝人」(腦力手藝人)概念提出者,現演變爲「自媒體」,成爲一個行業;

7騰訊全媒派榮譽導師、多家科技智能公司傳播顧問。

相關文章
相關標籤/搜索