人工智能工業應用痛點及解決思路

本文由 【FMI飛馬網】原創,原文連接:人工智能工業應用痛點及解決思路
php

分享一些關於人工智能的乾貨小白| Python+Matlab+機器學習+深度神經網絡+理論+實踐+視頻+課件+源碼,附下載!
算法

在關於AI、人工智能的消息鋪天蓋地捲來的今天,你是否是以爲人工智能應用已經在咱們生活的方方面面普及了?網絡

事實是儘管人工智能在語音、圖象、NLP領域其實有了比較多的應用,可是實質上相比於你們在手機裏裝的APP來講,它並無那麼多真正上的應用。爲何會產生這樣的狀況呢?人工智能是否是已經爆發了,或者離爆發還差什麼樣的因素呢?架構

來自第四範式的聯合創始人、深度學習遷移專家陳雨強在由飛馬網主辦的FMI2017人工智能大會上爲咱們作了詳細解釋。機器學習

1.png

陳雨強分佈式

人工智能的興起是隨着數據量變大,機器性能提高和並行計算發展共同帶來的結果。函數

工業界的人工智能須要什麼樣的系統呢?工具

陳雨強表示,須要的是Scalable的系統,而這個Scalable兩層含義,一層含義是傳統大數據Scalable,這個Scalable指的是咱們機器學習,數據處理的吞吐使得機器的量增長而增長。另外一個更重要意義上的Scalable,是咱們的機器、智能水平、服務質量、客戶體驗等,隨着業務量的增長,隨着用戶量的增長而增長,這是更重要意義上的Scalable體系。那爲何這是很是重要的呢?性能

由於它給企業來一種新的增加的方式。過去企業基本上拼的是跑馬圈地,我拼個人渠道,我拼個人運營,我拼個人市場,我拼個人資本。在這種狀況下,誰擁有更好的資本,誰擁有更好的運營,你就擁有更多的市場,圈更多的地。但隨着跑馬圈地的階段接近尾聲,增加達到必定程度之後,跑馬圈地並非可持續的發展方式。而如今慢慢的由跑馬圈地,須要轉化成精細化運營。這種狀況下誰的運行效率更高,誰的效果更高,誰就能搶到更多的用戶,帶來更好的效果。而這是個很是高的壁壘,人工智能正好能作到這一點,由於人工智能用到的是數據,數據是沒法被複制的。好比即便你如今擁有百度全部的代碼,你也不會擁有跟百度同樣能力的搜索引擎,由於你沒有近10年以來全部人的搜索習慣。學習

對於企業來講多了一種新的增加方式或者壁壘的方式,經過創建人工智能的能力,讓它積累的時間上的優點和數據上的優點變成它壁壘。這也正是人工智能收到追捧的緣由。

怎樣才能達到一個比較高的Scalable的系統呢?

陳雨強在演講中提到:工業大數據須要高VC維模型。VC理論描述的是計算機人工智能的程度,描述擬合複雜函數的能力,VC越高的話表明這個模型越聰明,VC越端,表明這個模型越弱。

2.png

從上圖能夠看出,高VC維的狀況下,咱們不斷的進行學習,訓練數據上的損失在不斷的降低,但你測算的損失是先降低,後上升的。

對於人工智能來講,因爲沒法區分數據的好壞,所謂的低VC維模型,當數據量不夠大的時候,用蠢一點的模型,隨着訓練不斷的增長,測試在未來的表現愈來愈好。另外一方面在於這個數據不永遠是小的,如今隨着互聯網的發展,數據愈來愈多,在這種狀況下你會發現笨一點的模型比好一點的模型效果好不少。

工業界要得到一個Scalable的系統,就須要一個高VC維模型的模型,隨着數字的增長,智能程度就增長,智能程度增長,用戶的體驗,產品的壁壘就高。

那麼怎麼獲得一個高VC維模型的呢?

陳雨強爲咱們總結了大概的幾種套路:機器學習=數據+特徵+模型。

3.png

數據量,在數據保持恆定的狀況下,其實咱們能夠看到,咱們從兩個角度分開看這個事情,一個宏觀特徵,一個微觀特徵。另外了模型分紅兩部分,一部分叫作簡單的模型,簡單的模型用學術語言說法,好比說線性模型,還有一種複雜模型,是非線性模型,其實有比較多的模型。咱們看到這種分法把咱們機器學習人工智能分紅四個現象,第一個象限,簡單模型加上微觀特徵,在這樣的系統裏面咱們的人工智能比較難以發揮比較好的效果的,由於由於他的VC維比較低,效果通常不是特別好。

▲ 第一象限,在上個世紀七八十年代,有個比較著名的數據,大概一千多數據集,每一個數據集大概一百到一千個數據,一千條數據。這樣子的國畫過去的科學家在這個數據上去研究方法,不可能有一個比較複雜的模型。因此說當時大概研究的主要是第一象限的模型。

▲ 第二象限,最著名的一個表明的工業界的表明多是谷歌的Adword2。谷歌在很是多的領域都是開山鼻祖的這麼一個角色和地位了。在廣告方面也是這麼一個地位,谷歌在當時使用了上千億的特徵,上千億的訓練數據,在一個線性模型上面得到了無與倫比的效果,即便在如今,深度學習風靡全球的狀況下,這套模型仍然是很是很是優秀的一個機器學習模型。因此第二象限裏面在工業界有很是成功的應用,爲谷歌,爲百度,爲很是多公司的廣告,每一年都在創造上百億甚至上千億的價值。

▲ 第三象限是一個複雜模型,宏觀特徵的狀況,若是你們熟悉的話,微軟的Bing和雅虎裏面比較重要的。第三象限,特徵沒有那麼複雜,可是模型是複雜的,也能得到一個比較高VC維模型。

▲ 第四象限,複雜模型,微觀特徵,他的高VC維模型很是很是高,可是挑戰很是大,由於它的模型實在太大,VC維過高,因此說也是一個很是熱的研究領域。

如何沿着模型走?

咱們能夠看到有兩條路,一條是特徵這條路,一個是模型這條路,怎麼沿着模型這條路走呢?

首先,咱們怎麼作一套複雜的模型出來呢?

學術界主導(ICML,NIPS,ICLR)

* 非線性的三把寶劍:Kernel,Boosting,Neural Network;

* 模型大部分單機可加載;

* 解決數據分佈式問題,以及下降overhead;

工業界針對應用定製模型

* 基於思考或者觀測獲得假設;

經過觀察咱們企業內部的業務和數據,來作出一些假設,這些假設通常是數學模型的假設,把這些假設經過某種方式加入模型,最後在新的數據上驗證這樣的假設是否是對的。

* 加入新的模型、結構,以加入更多參數;

* 典型案例:伽利略;

如何沿着特徵走?

如何沿着特徵走,這條路基本上是工業主導的,由於工業界他的工程實現能力,他的架構比較強,因此他須要高效並行並保證快速的作這個事情。好比說KDD,WWW這樣偏工業結合這樣的工做比較多,這個裏面基本上模型相對簡單粗暴。

4.png

不存在萬能模型

陳雨強表示,全部的機器學習自己就是一個偏置的。無論是深度學習,都是一個偏置的,若是咱們用更多的模型假設,咱們須要更少的數據。而若是咱們用更簡單的模型假設,咱們須要更多的數據支持與特徵刻畫。

固然,不一樣的模型各有優缺點,好比偏置若是過大的話,它可能錯。可是你還有另外一種方法,你不作那麼多假設,你把這個事情交給數據去作,讓數據學出來,他的好處是,你假設越簡單,你簡單假設錯的機率就越低,由於你沒有什麼假設。他的壞處你須要更多的數據,幫你擬合出這個複雜的特徵。

因此,工業界機器學習沒有免費的午飯,要作出對業務問題合適的選擇,你是什麼樣的業務選擇什麼樣的模型。並不是機器學習必定比深度學習更好,因此必定要作出合適的選擇,纔是明智的作法。

工業界應用機器學習難題

5.png

須要AI應用平臺

工業界應用機器學習到底有哪些難題除了有圖片上的XN,你們直觀的想法必定是須要一個AI平臺。即便如今有不少開源工具,但其實咱們發現這些工具並不足夠。

爲何人工智能尚未真的大規模應用到每一個企業?

這個要求就是說,我若是要作一個成功的AI系統,我必定要是一個AI的專家,這個要求咱們原來的架構師,不只要懂本身的架構方面的事情,我還要懂AI的事情,才能作這樣的一個問題,這樣的要求是很是高的,這樣也致使AI很是難以落地。

特徵工程:是一個根據你的模型找出最關鍵特徵的過程叫作特殊工程。包括特徵的清洗,特徵的變換,特徵的組合,和特徵的二次工程這樣一些事情。

特徵工程是很是難的,而且特徵工程須要根據你的模型,有很是大的區別,須要對你的業務有很是深入的理解,因此工業界特徵工程的難度,讓不少人其實沒有辦法將機器學習直接應用到人工智能應用裏面去。

陳雨強告訴咱們,第四範式想作一個自動特徵組合的事情,,調研下來發現有三條路:

1、隱式特徵組合;主要指一些不是顯式特徵組合的方式進行特徵組合,這種方式,對連續值組合特徵自然比較友好。深度學習就是一個很是典型的隱式特徵組合的工做。

2、半顯式的特徵組合;主要是它看起來是顯式,可是他並非作顯式特徵組合的方式。這個地方指的是咱們的數,看起來每一條路徑是一個特徵組合,他指一堆特徵變量在固定區間取值的組合,可是不是特徵自己的組合,他的特色是效果比較好,可是它的特徵組合其實只是複雜,並非一個真正的作特徵組合的方式。

3、顯式特徵組合;顯式特徵組合是個很是很是困難的問題,可是它的好處是能夠疊加,由於它是特徵工程,這個特徵工程能夠被應用到所能夠應用到全部須要特徵工程的地方去。

另外,陳雨強告訴咱們,第四範式最近提出了一個FeatureGO的算法,這個算法是一個可以作高階特徵組合方法。這個方法體系下,咱們作到了高至10階,咱們最多作到16階的特徵組合。這樣的算法,基於MCTS的方法,我能知道在某一種特徵組合下,它可能得到更好的效果的機率是什麼樣的。

人工智能的計算能力也是人工智能很是重要的一部分。傳統上來講,你們只要說你作的模型是人工智能最重要的一部分,可是其實如今來講,人工智能的模型和計算能力,都是很是重要的一點。

最後,陳雨強認爲,將來用機器換人,確定是未來工業界人工智能發展的一個趨勢。從這一點上,還有不少工做要作,去不斷下降用戶建模的門檻。

相關文章
相關標籤/搜索