如何將機器學習應用於實際的業務問題？

時間 2019-12-30

標籤如何機器學習應用於實際業務問題简体版

原文原文鏈接

做者 | Daniel Faggella
編譯 | CDA數據分析師

自2012年以來，很容易看到風險投資，會議和與業務相關的「機器學習」查詢的普遍普及-但大多數技術主管一般很難肯定他們的業務可能將機器學習（ML）實際應用於業務問題的位置。算法

隨着每週建立新的AI流行語，彷佛很難掌握哪些應用程序是可行的，哪些是炒做，誇張或騙局。小程序

在本文中，咱們將分解ML一般處理的業務問題的類別，而且還將提供可行的建議，以正確的方法和觀點開始ML計劃（即便這是您執行的第一個此類項目）在您的公司）。網絡

最重要的是，咱們將參考真實的業務用例，以及來自咱們的AI研究人員和執行人員網絡的「如何用ML解決業務問題」的引用和觀點。到本文結尾，您將對ML是否能夠很好地解決您當前的任何業務挑戰有一個好主意。架構

*注意：在本文的底部，我以簡單語言列出了ML術語的基本詞彙表。若是您發現本文中您所不理解的短語或術語，請參閱下面的詞彙表，或者，若是您但願咱們對本文中的概念更加清楚，請 [與咱們聯繫]併發

機器學習能夠處理哪些類型的業務問題

1 –您要作出的預測（或您要作出的決定）是否足夠複雜，以致於首先須要進行ML？

若是有可能構建一套規則或「若是-則情景」來徹底解決您的問題，那麼可能根本就不須要ML。此外，若是沒有成功的先例可將機器學習應用於您要解決的特定問題，那麼這可能不是進入ML世界的最佳途徑。機器學習

出於說明目的，列出一些成熟的機器學習業務用例將頗有幫助，以便您（讀者）能夠提出本身的應用程序構想：工具

人臉檢測： 編寫一套「規則」以使機器可以檢測人臉是很是困難的（考慮全部不一樣的膚色，視角，頭髮/面部毛髮等），可是能夠訓練算法來檢測人臉，就像在Facebook上使用的同樣。用於面部檢測和識別的許多工具都是開源的。如下是使用MATLAB進行面部識別的視頻：
電子郵件垃圾郵件過濾器 –某些垃圾郵件過濾器能夠經過規則來完成（即，經過明顯阻止垃圾郵件專用的IP地址），可是許多過濾是基於與每一個特定用戶相關的收件箱內容的上下文。大量的電子郵件和大量的用戶標記爲「垃圾郵件」（標記數據）構成了一個很好的監督學習問題。
產品/音樂/電影推薦 –每一個人的偏好都不一樣，偏好會隨着時間而變化。像Amazon，Netflix和Spotify這樣的公司使用大量商品（產品，歌曲等）中的評分和參與度來預測任何給定用戶可能想要購買，觀看或收聽的內容。
語音識別 –沒有單一的聲音組合來專門傳達人類的語音，而且各個發音的差別很大–機器學習能夠識別語音模式並幫助將語音轉換爲文本。Nuance Communications（Dragon Dictation的製造商）是當今最知名的語音識別公司之一。
實時出價（在線廣告） – Facebook和Google永遠沒法編寫特定的「規則」來肯定給定類型的用戶最有可能點擊哪些廣告。機器學習有助於識別用戶行爲的模式，並肯定哪些廣告最可能與哪一個用戶相關。
信用卡購買欺詐檢測 –與電子郵件垃圾郵件過濾器同樣，只能使用具體規則進行欺詐檢測的一小部分。不斷使用新的欺詐方法，而且系統必須適應實時檢測這些模式，以哄騙與欺詐相關的常見信號。

2 –您是否有新數據和乾淨數據？

在經驗豐富的數據科學專業人員中，「清潔數據勝於大數據」是一個常見的說法。若是您擁有數年前的大量業務數據，則今天可能沒有任何意義，尤爲是在基本業務流程逐年急劇變化的領域（例如移動電子商務）中。若是您有大量的非結構化數據和脫節數據，那麼您可能須要進行太多的「清理」工做，而後才能開始從收集的信息中學習。oop

UBER機器學習負責人Danny Lange曾經建議剛開始機器學習的公司應從對歷史數據應用監督的機器學習開始。查找已經乾淨且相對較新的數據，並使用帶有標籤的培訓數據開始尋找看法。學習

請注意，在瞬息萬變的領域，確定須要更新的數據。例如，若是您爲寵物用品運行上門送貨服務，而您的應用，價格，產品和服務範圍在過去六個月中發生了顯着變化，那麼您須要的最新數據要比蒙大拿州出售房主保險的公司。若是數據與您當前業務的相關趨勢和細微差異無關，則不太可能收集預測價值。測試

3 –您的數據是否已有標籤來幫助機器理解它？

雖然無監督學習（請參閱下面的術語表）容許在不使用標籤的狀況下實現普遍的數據意義的應用，但一般不建議公司在無監督學習中首次應用「跳入」機器學習。ML用例的低調成果極可能是從其歷史標記數據中產生的。如下是一些可能有助於讀者得到新想法的示例：

Facebook在其平臺上擁有數以百萬計的帶有標籤的人臉，這些人臉已經與我的相關聯。這使Facebook可以在海量的各類光照條件下從不一樣角度對數以百萬計的面部進行訓練，從而在海量標籤數據上訓練算法，從而能夠對算法進行高度優化和調整，以識別特定的人臉。
Google提供數十億美圓的搜索結果，並能夠根據其頂部列表的點擊率，頁面加載時間，特定訪問者的頁面停留時間以及許多其餘因素來評估其搜索結果的有用性和相關性。不可能找到一套嚴格的規則來顯示正確的搜索結果，所以Google的算法能夠經過數十億次每日搜索中的實時互動來了解最佳選擇。

4 –您對這個問題的解決方案能夠容忍一些錯誤嗎？

ML可能被認爲是一種「技能」，就像人們能夠將其應用於人類同樣。一種技能，能夠根據經驗進行動態調整，適應和發展。因爲這個緣由，機器學習解決方案一般會在必定百分比的時間內是不正確的，尤爲是當它是由新的或變化的刺激告知時。若是您的任務絕對不容許出現任何錯誤，則ML多是該工做的錯誤工具。

不容許出現錯誤的應用程序示例多是旨在讀取發票或帳單金額而後支付該發票或帳單的應用程序。一個字母或一個數字的差別可能意味着多付了您帳單原始金額的10倍（若是十進制被解釋爲在錯誤的位置），或匯款給了錯誤的公司（若是發票公司名稱未正確註冊）。

在上述狀況下，某種程度的ML可能有助於「存儲」不一樣類型的帳單或發票，可是輸入付款金額併發送付款的最終決定可能須要負責任的人員。

做爲一個有趣的警告，位於舊金山的一家名爲Roger.ai的初創公司旨在利用天然語言處理和機器視覺來實現帳單和支付帳單，儘管它在匯款以前將人們拉入了循環。

來自Emerj網絡的報價：

爲了得到關於「爲機器學習選擇業務問題」問題的更多觀點，咱們決定與之前的AI播客訪談對象的網絡聯繫，爲咱們的業務讀者提供更多指導：

Ben Waber博士-麻省理工學院博士-Humanyze（人工智能技術的人分析公司）首席執行官：

「任何具備硬數據，可變性和大量示例的業務問題。」

Danko Nikolic博士-奧克拉荷馬大學博士學位-計算機科學公司的數據科學和BD＆A：

「 1。公司能夠節省不少錢。

2.預測須要許多變量，它們之間複雜的非線性關係，在某些狀況下是高度隨機的。所以，一般只有算法才能瞭解這些關係。光是人類就很難。」

Charles Martin博士-芝加哥大學博士-計算諮詢公司首席執行官：

「最好的問題是存在一個龐大的歷史數據集，這些數據集既包含豐富的功能，又包含能夠用於構建的直接反饋以及能夠輕鬆實施和測試的算法，這將下降運營成本， /或當即增長收入。「

Ronen Meiri博士-特拉維夫大學博士-DMWay首席技術官兼創始人

：「大多數企業的問題能夠採用兩種機器學習方法妥善解決 1 日：‘什麼可能會發生’ 和 2 次：「什麼是...將來的預期值？」。

第一個是分類類型問題，其中包括對在許多其餘用例中可能流失，違約，購買，出售的人進行分類。

第二個問題是指望值問題，該問題能夠經過迴歸解決，而且能夠針對各類用例（如訂價優化和預測生命週期價值）提供準確的預測。」

彼得·沃斯（Peter Voss）-AGI創新公司首席執行官：

（首先，彼得引用喬治·梅森大學教授羅賓·漢森博士的話：「優秀的CS專家說：大多數認爲本身想要高級AI / ML的公司實際上只須要對清理後的數據進行線性迴歸。」）

「我認爲大多數企業都沒有理由在ML / DL上進行投資（固然，ML意味着不少事情）。每一個人都在談論的最前沿內容須要大量數據和專業知識，而且是靜態的，即，當數據或類別更改時，須要對其進行從新培訓。」

線性迴歸是最古老，最簡單且普遍使用的機器學習模型之一。一些研究人員認爲，至少在最初，許多中間預測問題可能只須要基本方法便可。圖片由MathWorks提供。

彼得的評論是恰當的，不該掉以輕心。當ML因其流行和流行而被人們搶走時，它不可能產生顯着的結果。找到最適合您的底線需求的工具；ML可能不是知足業務或增加目標所需的解決方案。

這使咱們進入了本指南的第二個主要部分：

將機器學習應用於業務問題的指針

1 –從優先級問題開始，而不是玩具問題

在與查爾斯·馬丁（Charles Martin）博士（灣區AI顧問）的場外對話中，他提到許多公司熱情地閱讀了有關ML的內容，並決定「找到某種使用它的方法。」這致使團隊沒有真正的動力。或追求（或承諾的資源）以驅動實際結果。選擇一個很是重要的業務問題，而且彷佛頗有可能獲得解決

UBER的Danny Lange從一開始就提到，有一個思惟過程極可能會產生富有成果的機器學習用例思想：「若是咱們只知道____。」

問問本身，您想知道哪些關鍵業務信息，但當前沒法訪問？也許是在瞭解最有可能產生最高客戶生命週期價值的潛在客戶來源，或者最能代表預期客戶流失的用戶行爲。

2-您能夠給它數據，可是全部上下文都必須來自您

想一想要「饋送」您的算法的信息並不像假定的那麼容易。機器學習算法雖然擅長識別相關性，但他們沒法理解圍繞數據的事實，這些事實可能使數據變得相關或不相關。如下是「上下文」如何阻礙開發有效的ML解決方案的一些示例：

預測電子商務客戶的生命週期價值： 能夠爲算法提供有關歷史客戶生命週期價值的數據，而無需考慮經過運行了兩年以上但未能實現收支平衡的電話外聯計劃與許多生命週期最高價值的客戶進行了聯繫，儘管產生了新的銷售。若是這樣的電話跟進計劃不會成爲將來電子商務銷售增加的一部分，那麼這些銷售就不該該被提供給機器。
肯定醫療恢復時間： 數據可能會提供給機器，以肯定對一級或二級燒傷患者的治療方法。該機器能夠預測，許多二級燒傷受害者將只須要與一級燒傷受害者同樣多的時間，由於它沒有考慮到二級燒傷受害者過去得到的更快，更重的護理。上下文自己不在數據自己中，所以計算機僅假設第二度的燒傷癒合速度與第一度同樣快。
推薦相關產品： 電子商務零售商的推薦引擎過分推薦特定產品。研究人員直到後來才發現該產品在一年多之前獲得了大力推廣，所以歷史數據代表現有購買者的銷售量大幅增長。可是，根據「交易」和低廉的價格，這些促銷購買的商品銷量更高，而根據客戶的實際相關意圖則更少。

3 –指望修補，調整和調整以找到投資回報率

構建ML解決方案須要在選擇算法，選擇數據，清理數據以及在實際環境中進行測試時進行仔細的思考和測試。對於獨特而複雜的業務用例，沒有「開箱即用」的機器學習解決方案。即便對於極爲常見的用例（推薦引擎，預測客戶流失），每一個應用程序也會有很大差別，而且須要迭代和調整。若是一家公司沒有進行長時間的修補就投入了ML項目，那麼它可能永遠不會取得有用的結果。

來自Emerj網絡的報價：

咱們再次聯繫了咱們的Emerj受訪者和共識受訪者網絡，以獲取有關在企業中實施機器學習的意見和技巧。如下是引號的集合：

Ben Waber博士-麻省理工學院博士-Humanyze（人工智能技術的人分析公司）首席執行官：

「您不能使用ML真空解決業務問題。確保您獲得業務部門負責人的支持，以根據分析作出具體更改。」

Danko Nikolic博士-奧克拉荷馬大學博士學位-計算機科學公司的數據科學和BD＆A：

「企業在使用ML時常犯的最多見錯誤是，他們認爲ML解決方案是一站式過程：他們將數據發送給數據科學家，而數據科學家則將模型返回。與此相反，找到好的ML解決方案是一個反覆的過程，涉及研究，試驗和錯誤，試驗，與業務專家交談等。

ML永遠不可能成爲商品。ML的成功在很大程度上取決於作到這一點的人的知識，技能和奉獻精神。」

Charles Martin博士-芝加哥大學博士-計算諮詢公司首席執行官：

「在您掌握要作什麼以前，請避免創建大規模的基礎架構。您能夠輕鬆地花費6個月到一年的時間來設置Hadoop和Spark，而不會看到任何投資回報。

若是您5％的數據正確且有用，您將很幸運。您須要設計一個實驗，以識別低垂的果實並找出所需的數據。您能夠在高內存的AWS節點上構建算法。

將算法放入實時環境中，並儘早對其進行測試。不要構建嘗試完整的生產系統。記住，ML是關於數學的，而不是編碼！您想測試一下。運行足夠的示例來消除問題，但不要過小，以致於統計數據毫無心義。」

Ferris Jumah-之前曾在LinkedIn擔任ML-灣區ML顧問：

「儘快獲取數據驅動。機器學習不是免費提供的。您須要圍繞數據創建直覺，如何衡量業務並瞭解客戶，不只將度量值連接，還將洞察力連接到決策制定。記錄全部內容，構建存儲和處理系統，確保它們可訪問，對產品進行深刻分析和儘量多的實驗，並在儘量多的產品中內置智能。

在這一點上，消費者指望個性化和「智能」功能。創建它們，向他們學習，並確保您擁有適當的反饋機制。最後，僱用和投資對您的問題和業務充滿熱情的數據人員。」

共識（在上面引用的數量有限，以及與具備業務頭腦的數據科學家進行的其餘數十次對話中）是，機器學習不像營銷自動化軟件那樣僅僅是「工具」。任何擁有良好管理者並得到社區大學學士學位的人均可以選擇「持續聯繫」，甚至能夠選擇（甚至能夠稍做修改並致電支持熱線）Marketo或Hubspot並提升公司價值。

應用機器學習的迭代，多方面過程沒有簡單的捷徑。圖像信譽Microsoft的CortanaIntelligence。

機器學習尚未出如今一個整潔的盒子中，而價值倒是由刻苦的思考，實驗設計以及（在某些狀況下）刻苦的數學創造的。在Google和YouTube上花費一些時間，您能夠了解如何爲您的企業設置DropBox。經過機器學習預測整個客戶羣的流失率嗎？不同的遊戲。

準備從ML中得到業務價值意味着要有受過訓練的人才，專家指導和（一般）巨大的「數據清理」時期-並且，正如馬丁博士在上面恰當地指出的那樣，這沒有保證必定會贏。若是Google，Amazon和Facebook可以讓他們的實習生創建ML系統，他們真的會花費數百萬美圓從學者中挖走世界頂級AI人才來爲他們工做嗎？

雖然機器學習不是一個簡單的設置，但也不是任何有遠見的企業均可以離開桌面太長時間。「搖滾明星」技術公司經過機器學習得到的效率是巨大的，而灣區的初創企業不只由於「機器學習」是一個流行詞而得到了資金，還由於它們中的許多公司業務強大而有力案件。

感興趣的讀者可能會從咱們最近對26位機器學習/人工智能研究人員達成的共識中受益，咱們在其中提出瞭如下問題：「機器學習應首先應用於商業領域嗎？」該信息圖表特點充分體現了本文中強調的許多觀點。

高管們面臨的最終問題仍然是：咱們何時才能擁有（a）認真投資於機器學習所需的資源，以及（b）合法的用例，該用例始於試圖找到真正的商業價值，而不是從「試圖找到一種方法」這是一個沒法爲您完成的思考過程，可是咱們但願本文可以幫助您瞭解您的觀點併爲您提供未來借鑑的資源。

機器學習術語表

除非另有說明，不然定義均來自維基百科。

機器學習（ML） –機器學習是使計算機像人類同樣學習和行動的科學，經過以觀察和真實交互的形式向計算機提供數據和信息，從而隨着時間的推移以自主方式改善其學習。
監督學習 –從標記的訓練數據中推斷功能的機器學習任務。
無監督學習 –機器學習任務，能夠推斷功能以描述來自未標記數據的隱藏結構。
分類 –根據一組訓練數據肯定新觀測值屬於哪一組類別
迴歸 –一種統計技術，用於估計變量之間的關係（包括線性迴歸，邏輯迴歸和其餘方法）
算法 -要執行的自成體系的分步操做集。算法執行計算，數據處理和/或自動推理任務。
天然語言處理（NLP） –與計算機和人類（天然）語言之間的交互有關的計算機科學，人工智能和計算語言學領域。