【譯】AI 讓科技公司變得更強大嗎

機器學習多是當今技術中最重要的基本趨勢。因爲機器學習的基礎是數據 - 大量的數據 - 很常見的是,人們愈來愈擔憂已經擁有大量數據的公司會變得更強大。這有必定的道理,可是以至關狹窄的方式,同時ML也看到了不少能力的擴散 - 可能存在與集中化同樣多的分散化。數據庫

首先,說機器學習是關於數據的意思是什麼?因爲ML的學術文化,幾乎全部的初級科學都是在建立以後發佈的 - 幾乎全部新的都是一篇你能夠閱讀和構建的論文。可是你建造什麼?那麼,在過去,若是軟件工程師想要建立一個系統來識別某些東西,他們就會編寫邏輯步驟(「規則」)。要識別圖片中的貓,你會編寫規則來查找邊緣,毛髮,腿,眼睛,尖耳等等,並將它們所有拼接在一塊兒並但願它可以正常工做。麻煩的是,雖然這在理論上是有效的,但在實踐中它更像是試圖製造機械馬 - 這在理論上是可行的,但所需複雜性的法令是不切實際的。咱們實際上沒法描述咱們用於行走或識別貓的全部邏輯步驟。經過機器學習,您能夠向統計引擎提供示例(大量示例),而不是編寫規則,而且該引擎會生成能夠區分的模型。你給它10萬張標有'cat'的照片和100,000張標有'no cat'的照片,而後機器計算出差別。 ML用自動肯定的數據模式取代了手寫的邏輯步驟,而且對於一個很是普遍的問題更加有效 - 簡單的演示在於計算機視覺,語言和語音,但用例更普遍。您須要多少數據纔是移動目標:有研究途徑容許ML使用更小的數據集,但就目前而言,(更多)數據幾乎老是更好。網絡

所以,問題是:若是ML讓你作新的和重要的事情,而ML會更好,你擁有的數據越多,那麼這意味着那些已經很大且擁有大量數據的公司會變得更強大了多遠?贏家通吃效果有多遠?很容易想象良性循環強化了贏家:'更多數據=更準確的模型=更好的產品=更多的用戶=更多的數據'。從這裏開始,這是「Google / Facebook /亞馬遜擁有全部數據」或「中國擁有全部數據」等聲明的一個簡單步驟 - 擔憂最強大的科技公司會變得更強大,人口衆多的國家也會變得更增強大'對集中使用數據的態度。機器學習

好吧,有點。學習

首先,雖然您須要大量的機器學習數據,但您使用的數據很是特定於您嘗試解決的問題。通用電氣擁有大量來自燃氣輪機的遙測數據,谷歌擁有大量搜索數據,而美國運通有不少信用卡欺詐數據。您不能使用渦輪機數據做爲例子來發現欺詐性交易,而且您沒法使用網絡搜索來發現即將發生故障的燃氣輪機。也就是說,ML是一種可推廣的技術 - 您能夠將其用於欺詐檢測或人臉識別 - 但您使用它構建的應用程序並非通常化的。你構建的每件事只能作一件事。這與以前的全部自動化浪潮大體相同:就像洗衣機只能洗衣服而不洗碗或作飯同樣,國際象棋程序不能免稅,機器學習翻譯系統沒法識別貓。您構建的應用程序和您須要的數據集都很是特定於您嘗試解決的任務(儘管如此,這是一個移動目標,而且正在進行研究以嘗試使學習在不一樣數據集之間更易於轉換)。優化

這意味着機器學習的實現將獲得很是普遍的分佈。谷歌不會「擁有全部數據」 - 谷歌將擁有全部谷歌數據。谷歌將擁有更多相關的搜索結果,通用電氣將擁有更好的引擎遙測技術,沃達豐將更好地分析通話模式和網絡規劃,這些都是由不一樣公司構建的不一樣內容。谷歌更善於成爲谷歌,但這並不意味着它在某種程度上擅長於其餘任何事情。翻譯

接下來,人們能夠爭辯說,這隻意味着每一個行業中的大公司都會變得更強大 - 沃達豐,通用電氣和美國運通各自擁有「全部數據」,不管他們作什麼,所以造成了對抗競爭的護城河。但在這裏,它更復雜:有各類有趣的問題,關於誰擁有數據,它的獨特性以及它的獨特性,以及正確的聚合和分析點。圖片

那麼:做爲一家工業公司,您是否保留本身的數據並構建ML系統進行分析(或者向承包商支付費用爲您作到這一點)?您是否從已經接受過其餘人數據培訓的供應商那裏購買成品?您是將您的數據混合到那裏,仍是從它衍生出的培訓中混合?供應商是否須要您的數據,或者他們已經擁有足夠的數據?答案在您的業務的不一樣部分,不一樣的行業和不一樣的用例中會有所不一樣。部署

從另外一端來看,若是您正在建立一家公司來部署ML來解決實際問題,那麼有兩個基本數據問題:如何得到第一個數據來訓練模型以得到第一個客戶,你實際須要多少數據?固然,第二個問題分解爲不少問題:問題是經過相對少許的數據解決的,你能夠很容易地得到(但許多競爭對手能夠得到),或者你須要更多,難以得到數據,若是是這樣,網絡效應能夠從中受益,那麼勝利者會採起一切動態嗎?產品是否會無限期地得到更多數據,或者是否存在S曲線?get

這取決於。產品

某些數據對於業務或產品而言是獨一無二的,或者具備強大的專有優點。 GE發動機遙測可能沒有太多用於分析勞斯萊斯發動機,但若是是,他們將不會分享它。這多是公司建立的機會,但也是許多內部大公司IT和承包商項目發生的地方

一些數據將適用於許多公司甚至許多行業中的用例。 「這個電話有些奇怪」多是全部信用卡公司的常見分析 - 「客戶聽起來很生氣」可能適用於有呼叫中心的任何人。這是「混合」的問題。在這裏建立了許多公司來解決許多公司或不一樣行業的問題,這裏的數據存在網絡效應。

但也有一些狀況,在某一點以後,供應商甚至不須要每一個增量客戶的數據 - 產品已經在運行。

實際上,隨着機器學習幾乎擴散到全部東西,一個初創公司可能會看到其中的幾個。咱們的投資組合公司Everlaw生產法律發現軟件:若是你起訴某人而且他們給你發了一輛裝滿紙的卡車,這會有所幫助。機器學習意味着他們將可以對一百萬封電子郵件進行情緒分析(「向我顯示焦慮的電子郵件」),而無需根據案例中的數據訓練該模型,由於培訓該模型的情緒示例不須要來自這一特定訴訟(或任何訴訟)。相反,他們也能夠對您的數據進行聚類分析(「向我顯示與此相同的電子郵件」),而不會在其餘任何地方進行。另外一家投資組合公司Drishti使用計算機視覺來檢測和分析生產線 - 其中一些功能是根據您的數據進行培訓的,有些功能根本不是針對您的業務,而是跨行業。

在極端狀況下,我最近採訪了一家很是大型車輛的製造商,他們正在使用機器學習來得到更精確的癟胎檢測器。這是訓練有關數據(不少不少不少來自扁平輪胎和非扁平輪胎的信號的例子),顯然,可是得到這些數據並不難。這是一個特徵,而不是護城河。

所以,我以前說過ML啓動有兩個問題:如何獲取數據以及您須要多少?但這些只是技術問題:你還會問你如何進入市場,你的可尋址市場是什麼,你解決的問題對你的客戶有多大價值,等等。也就是說,很快就會有任何「AI」創業公司 - 他們將成爲工業過程分析公司,法律平臺公司或銷售優化公司。事實上,機器學習的傳播並不意味着谷歌變得更強大,但各類各樣的創業公司均可以比之前更快地用這種前沿科學創建事物。

這讓我想到了我在其餘地方使用過的比喻 - 咱們應該將機器學習與SQL進行比較。它是一個重要的構建塊,容許新的和重要的事情,並將成爲一切的一部分。若是你不使用它和你的競爭對手,你會落後。有些人會用這種方式建立全新的公司 - 沃爾瑪成功的一部分來自於使用數據庫來更有效地管理庫存和物流。可是今天,若是你創辦了一家零售商並說「......咱們將要使用數據庫」,這不會讓你不同凡響或有趣 - SQL成爲了一切的一部分而後消失了。機器學習也會發生一樣的狀況。

本文爲簡譯,更多詳情請參見原文。

文章來源: 網易雲社區

相關文章
相關標籤/搜索