做者 | Daniel Faggella
編譯 | CDA數據分析師
自2012年以來,很容易看到風險投資,會議和與業務相關的「機器學習」查詢的普遍普及-但大多數技術主管一般很難肯定他們的業務可能將機器學習(ML)實際應用於業務問題的位置。算法
隨着每週建立新的AI流行語,彷佛很難掌握哪些應用程序是可行的,哪些是炒做,誇張或騙局。小程序
在本文中,咱們將分解ML一般處理的業務問題的類別,而且還將提供可行的建議,以正確的方法和觀點開始ML計劃(即便這是您執行的第一個此類項目)在您的公司)。網絡
最重要的是,咱們將參考真實的業務用例,以及來自咱們的AI研究人員和執行人員網絡的「如何用ML解決業務問題」的引用和觀點。到本文結尾,您將對ML是否能夠很好地解決您當前的任何業務挑戰有一個好主意。架構
*注意:在本文的底部,我以簡單語言列出了ML術語的基本詞彙表。若是您發現本文中您所不理解的短語或術語,請參閱下面的詞彙表,或者,若是您但願咱們對本文中的概念更加清楚,請 [與咱們聯繫]併發
若是有可能構建一套規則或「若是-則情景」來徹底解決您的問題,那麼可能根本就不須要ML。此外,若是沒有成功的先例可將機器學習應用於您要解決的特定問題,那麼這可能不是進入ML世界的最佳途徑。機器學習
出於說明目的,列出一些成熟的機器學習業務用例將頗有幫助,以便您(讀者)能夠提出本身的應用程序構想:工具
在經驗豐富的數據科學專業人員中,「清潔數據勝於大數據」是一個常見的說法。若是您擁有數年前的大量業務數據,則今天可能沒有任何意義,尤爲是在基本業務流程逐年急劇變化的領域(例如移動電子商務)中。若是您有大量的非結構化數據和脫節數據,那麼您可能須要進行太多的「清理」工做,而後才能開始從收集的信息中學習。oop
UBER機器學習負責人Danny Lange曾經建議剛開始機器學習的公司應從對歷史數據應用監督的機器學習開始。查找已經乾淨且相對較新的數據,並使用帶有標籤的培訓數據開始尋找看法。學習
請注意,在瞬息萬變的領域,確定須要更新的數據。例如,若是您爲寵物用品運行上門送貨服務,而您的應用,價格,產品和服務範圍在過去六個月中發生了顯着變化,那麼您須要的最新數據要比蒙大拿州出售房主保險的公司。若是數據與您當前業務的相關趨勢和細微差異無關,則不太可能收集預測價值。測試
雖然無監督學習(請參閱下面的術語表)容許在不使用標籤的狀況下實現普遍的數據意義的應用,但一般不建議公司在無監督學習中首次應用「跳入」機器學習。ML用例的低調成果極可能是從其歷史標記數據中產生的。如下是一些可能有助於讀者得到新想法的示例:
ML可能被認爲是一種「技能」,就像人們能夠將其應用於人類同樣。一種技能,能夠根據經驗進行動態調整,適應和發展。因爲這個緣由,機器學習解決方案一般會在必定百分比的時間內是不正確的,尤爲是當它是由新的或變化的刺激告知時。若是您的任務絕對不容許出現任何錯誤,則ML多是該工做的錯誤工具。
不容許出現錯誤的應用程序示例多是旨在讀取發票或帳單金額而後支付該發票或帳單的應用程序。一個字母或一個數字的差別可能意味着多付了您帳單原始金額的10倍(若是十進制被解釋爲在錯誤的位置),或匯款給了錯誤的公司(若是發票公司名稱未正確註冊) 。
在上述狀況下,某種程度的ML可能有助於「存儲」不一樣類型的帳單或發票,可是輸入付款金額併發送付款的最終決定可能須要負責任的人員。
做爲一個有趣的警告,位於舊金山的一家名爲Roger.ai的初創公司旨在利用天然語言處理和機器視覺來實現帳單和支付帳單,儘管它在匯款以前將人們拉入了循環。
爲了得到關於「爲機器學習選擇業務問題」問題的更多觀點,咱們決定與之前的AI播客訪談對象的網絡聯繫,爲咱們的業務讀者提供更多指導:
Ben Waber博士-麻省理工學院博士-Humanyze(人工智能技術的人分析公司)首席執行官:
「 任何具備硬數據,可變性和大量示例的業務問題。」
Danko Nikolic博士-奧克拉荷馬大學博士學位-計算機科學公司的數據科學和BD&A:
「 1。公司能夠節省不少錢。
2.預測須要許多變量,它們之間複雜的非線性關係,在某些狀況下是高度隨機的。所以,一般只有算法才能瞭解這些關係。光是人類就很難。」
Charles Martin博士-芝加哥大學博士-計算諮詢公司首席執行官:
「 最好的問題是存在一個龐大的歷史數據集,這些數據集既包含豐富的功能,又包含能夠用於構建的直接反饋以及能夠輕鬆實施和測試的算法,這將下降運營成本, /或當即增長收入。「
Ronen Meiri博士-特拉維夫大學博士-DMWay首席技術官兼創始人
:「大多數企業的問題能夠採用兩種機器學習方法妥善解決 1 日:‘什麼可能會發生’ 和 2 次:「什麼是...將來的預期值?」。
第一個是分類類型問題,其中包括對在許多其餘用例中可能流失,違約,購買,出售的人進行分類。
第二個問題是指望值問題,該問題能夠經過迴歸解決,而且能夠針對各類用例(如訂價優化和預測生命週期價值)提供準確的預測。」
彼得·沃斯(Peter Voss)-AGI創新公司首席執行官:
(首先,彼得引用喬治·梅森大學教授羅賓·漢森博士的話:「優秀的CS專家說:大多數認爲本身想要高級AI / ML的公司實際上只須要對清理後的數據進行線性迴歸。」)
「我認爲大多數企業都沒有理由在ML / DL上進行投資(固然,ML意味着不少事情)。 每一個人都在談論的最前沿內容須要大量數據和專業知識,而且是靜態的,即,當數據或類別更改時,須要對其進行從新培訓。」
線性迴歸是最古老,最簡單且普遍使用的機器學習模型之一。一些研究人員認爲,至少在最初,許多中間預測問題可能只須要基本方法便可。圖片由MathWorks提供。
彼得的評論是恰當的,不該掉以輕心。當ML因其流行和流行而被人們搶走時,它不可能產生顯着的結果。找到最適合您的底線需求的工具;ML可能不是知足業務或增加目標所需的解決方案。
這使咱們進入了本指南的第二個主要部分:
在與查爾斯·馬丁(Charles Martin)博士(灣區AI顧問)的場外對話中,他提到許多公司熱情地閱讀了有關ML的內容,並決定「找到某種使用它的方法。」這致使團隊沒有真正的動力。或追求(或承諾的資源)以驅動實際結果。選擇一個很是重要的業務問題,而且彷佛頗有可能獲得解決
UBER的Danny Lange從一開始就提到,有一個思惟過程極可能會產生富有成果的機器學習用例思想:「若是咱們只知道____。」
問問本身,您想知道哪些關鍵業務信息,但當前沒法訪問?也許是在瞭解最有可能產生最高客戶生命週期價值的潛在客戶來源,或者最能代表預期客戶流失的用戶行爲。
想一想要「饋送」您的算法的信息並不像假定的那麼容易。機器學習算法雖然擅長識別相關性,但他們沒法理解圍繞數據的事實,這些事實可能使數據變得相關或不相關。如下是「上下文」如何阻礙開發有效的ML解決方案的一些示例:
構建ML解決方案須要在選擇算法,選擇數據,清理數據以及在實際環境中進行測試時進行仔細的思考和測試。對於獨特而複雜的業務用例,沒有「開箱即用」的機器學習解決方案。即便對於極爲常見的用例(推薦引擎,預測客戶流失),每一個應用程序也會有很大差別,而且須要迭代和調整。若是一家公司沒有進行長時間的修補就投入了ML項目,那麼它可能永遠不會取得有用的結果。
咱們再次聯繫了咱們的Emerj受訪者和共識受訪者網絡,以獲取有關在企業中實施機器學習的意見和技巧。如下是引號的集合:
Ben Waber博士-麻省理工學院博士-Humanyze(人工智能技術的人分析公司)首席執行官:
「 您不能使用ML真空解決業務問題。確保您獲得業務部門負責人的支持,以根據分析作出具體更改。」
Danko Nikolic博士-奧克拉荷馬大學博士學位-計算機科學公司的數據科學和BD&A:
「 企業在使用ML時常犯的最多見錯誤是,他們認爲ML解決方案是一站式過程:他們將數據發送給數據科學家,而數據科學家則將模型返回。與此相反,找到好的ML解決方案是一個反覆的過程,涉及研究,試驗和錯誤,試驗,與業務專家交談等。
ML永遠不可能成爲商品。ML的成功在很大程度上取決於作到這一點的人的知識,技能和奉獻精神。」
Charles Martin博士-芝加哥大學博士-計算諮詢公司首席執行官:
「在您掌握要作什麼以前,請避免創建大規模的基礎架構。您能夠輕鬆地花費6個月到一年的時間來設置Hadoop和Spark,而不會看到任何投資回報。
若是您5%的數據正確且有用,您將很幸運。您須要設計一個實驗,以識別低垂的果實並找出所需的數據。您能夠在高內存的AWS節點上構建算法。
將算法放入實時環境中,並儘早對其進行測試。不要構建嘗試完整的生產系統。記住,ML是關於數學的,而不是編碼!您想測試一下。運行足夠的示例來消除問題,但不要過小,以致於統計數據毫無心義。」
Ferris Jumah-之前曾在LinkedIn擔任ML-灣區ML顧問:
「儘快獲取數據驅動。機器學習不是免費提供的。您須要圍繞數據創建直覺,如何衡量業務並瞭解客戶,不只將度量值連接,還將洞察力連接到決策制定。記錄全部內容,構建存儲和處理系統,確保它們可訪問,對產品進行深刻分析和儘量多的實驗,並在儘量多的產品中內置智能。
在這一點上,消費者指望個性化和「智能」功能。創建它們,向他們學習,並確保您擁有適當的反饋機制。最後,僱用和投資對您的問題和業務充滿熱情的數據人員。」
共識(在上面引用的數量有限,以及與具備業務頭腦的數據科學家進行的其餘數十次對話中)是,機器學習不像營銷自動化軟件那樣僅僅是「工具」。任何擁有良好管理者並得到社區大學學士學位的人均可以選擇「持續聯繫」,甚至能夠選擇(甚至能夠稍做修改並致電支持熱線)Marketo或Hubspot並提升公司價值。
應用機器學習的迭代,多方面過程沒有簡單的捷徑。圖像信譽Microsoft的CortanaIntelligence。
機器學習尚未出如今一個整潔的盒子中,而價值倒是由刻苦的思考,實驗設計以及(在某些狀況下)刻苦的數學創造的。在Google和YouTube上花費一些時間,您能夠了解如何爲您的企業設置DropBox。經過機器學習預測整個客戶羣的流失率嗎?不同的遊戲。
準備從ML中得到業務價值意味着要有受過訓練的人才,專家指導和(一般)巨大的「數據清理」時期-並且,正如馬丁博士在上面恰當地指出的那樣,這沒有保證必定會贏。若是Google,Amazon和Facebook可以讓他們的實習生創建ML系統,他們真的會花費數百萬美圓從學者中挖走世界頂級AI人才來爲他們工做嗎?
雖然機器學習不是一個簡單的設置,但也不是任何有遠見的企業均可以離開桌面太長時間。「搖滾明星」技術公司經過機器學習得到的效率是巨大的,而灣區的初創企業不只由於「機器學習」是一個流行詞而得到了資金,還由於它們中的許多公司業務強大而有力案件。
感興趣的讀者可能會從咱們最近對26位機器學習/人工智能研究人員達成的共識中受益,咱們在其中提出瞭如下問題:「機器學習應首先應用於商業領域嗎?」 該信息圖表特點充分體現了本文中強調的許多觀點。
高管們面臨的最終問題仍然是:咱們何時才能擁有(a)認真投資於機器學習所需的資源,以及(b)合法的用例,該用例始於試圖找到真正的商業價值,而不是從「試圖找到一種方法」這是一個沒法爲您完成的思考過程,可是咱們但願本文可以幫助您瞭解您的觀點併爲您提供未來借鑑的資源。
除非另有說明,不然定義均來自維基百科。
掃碼進入CDA官方小程序,解鎖更多新鮮資訊和優質內容,還有免費試聽課程,不要錯過喲!