做者 | Bob Violino
編譯 | 中國統計網
對於IT來講,誇大其功效的炒做越多,外界對其的誤解也會越大,數據分析固然也不例外。數據分析是當今信息技術最熱門的領域之一,能夠爲企業帶來顯著的業務收益,但這些誤解可能將妨礙分析過程的及時、順利交付,並影響業務用戶和最終客戶。算法
隨着企業建立或擴展其分析策略,這裏有12個他們須要格外注意的關於數據分析的誤解。小程序
現在,彷佛對每一項新技術的投入都必須經過嚴格的財務支出的篩選過程。「它須要多少費用?」——是IT和業務經理在提議啓動項目或部署新工具時須要首先考慮的問題之一。安全
有些人認爲數據分析本質上是一項代價高昂的工做,所以僅限於擁有大量預算或大量內部資源的企業機構。可是事實並不是如此,如今市場上有不少開源工具和其餘工具可以幫助展現數據分析的價值;而且基於雲系統的大數據架構,也會比傳統的數據倉庫便宜得多。你只須要明確內部數據存儲以及要解決的問題,就能夠輕鬆的在雲上使用分析來解決業務問題。架構
此外,數據分析一般用於實現三個結果:提升流程效率、實現收入增加和主動進行風險管理,總的來講,數據分析在任何公司的應用中都帶來了巨大的成本效益。機器學習
對於許多人來講,大數據和分析的概念是相輔相成的,企業須要在執行分析以前收集大量數據,以便生成業務洞察,改進決策制定等。工具
固然,大數據分析的優點也很明確,擁有這些資源的公司利用大數據存儲做爲促進分析工做的一部分,得到了顯着的競爭優點。可是大數據卻並非分析必不可少的搭配。學習
分析師須要特定的數據,而不是更多的數據。要想更好地支持決策和提升績效,企業必須更多的考慮業務用戶,肯定他們須要訪問哪些數據,如何呈現數據,而不是關注更多的數據。95%以上的用戶會尋找和他們工做相關的信息來支持他們進行決策,來提升業務表現,因此企業須要以最簡單的格式向他們提供這些信息,幫助他們快速定位重要信息。大數據
自動化系統執行的方式不該該存在偏見,但技術是由人類創建的,所以消除全部偏見幾乎是不可能的。人工智能
有些人認爲分析和機器學習消除了人類的偏見,不幸的是,這並無實現。算法和分析使用「訓練數據」進行調整,並將重現「訓練數據」所具備的任何特徵,在某些狀況下,這會在分析過程當中引入良性偏見,但也有可能帶來更嚴重的偏見——由於「算法這麼說」並不意味着答案是公平的或者有用的。spa
事實證實,有了足夠的數據,有時算法可有可無。谷歌的工程師認爲,數據有着不合理有效性 ,簡單的統計模型,加上極大量的數據,比包含大量特徵和總結的「智能優越模型」能輸出更優質的結果。
所以,在某些狀況下,只需處理更大量的數據就能夠得到最佳效果。
人們執拗地信任統計模型和算法,而且隨着分析程序的組織構建,他們會愈來愈依賴複雜的模型來支持決策。這或許是由於用戶並不以爲他們有能力挑戰模型,所以他們必須相信構建它們的「聰明人」。
好比,在過去的50到60年裏,咱們反覆聽到「人工智能將在20年內接管人類工做」的言論,如今也仍是有人反覆強調這種觀點。在咱們能夠徹底信任機器學習和它們輸出的結果以前,還有不少事情要作。在那以前,咱們須要挑戰構建算法和模型的人,讓他們解釋如何獲得答案。這並非說咱們不能依賴於結果,而是說咱們須要透明度,這樣咱們才能夠信任和驗證分析結果。
近年來,數據科學學科受到了不少關注,有時甚至會與其餘學科產生混淆。基本上來講,數據科學涉及了數據查找模式中全部算法的使用。
數據科學彷佛很神祕,由於這些算法可以分析比人類可以理解的範圍內更多變量和更大的數據集。可是隨着近年來計算能力和內存的擴大,咱們如今可以快速解決10年前任何技術都沒法解決的問題,人們也隨之明白,數據科學是統計推斷技術的天然演變。但一旦你理解了數學,數據科學就沒有了神祕感。
現在,數據科學家是全部技術專業人員中最緊缺的。但若是他們從新定位他們正在進行的工做,組織機構可能會減小這些專業人員的數量。
許多數據科學家的時間花費在非增值活動上,好比查找數據集,將數據發送到能夠處理的地方,以及轉換和清理數據等。考慮到聘請數據科學家的困難程度,這些低價值的任務並非企業想要的。
數據科學家須要專一於特徵工程,提取和分析,而不是圍着數據打轉,這樣才能大大提升他們的工做效率和產出。
現在,快速完成工做——不管是將產品或服務推向市場,仍是近乎實時地響應客戶諮詢,對於任何企業來講都是影響核心競爭力的重要因素。
分析聽起來彷佛須要很長時間才能執行,與實現速度和敏捷性的目標背道而馳,但這仍然是一個誤區。歸根究底,一切都與人才有關。有了正確的技能組合和敏捷方法論的應用,大型問題也能夠在幾天或幾周內獲得回答,而不是幾個月。
隨着當今可用技術的不斷增長,選擇合適的工具組合進行部署和集成,能夠
更好從分析團隊得到所需的結果,
然而,真正困難的部分是「整合組織結構和運營模式,將人員、流程、技術視角所需的所有內容整合在一塊兒。假如你認爲只有技術才能解決任何商業問題,那麼在此認知之上創建的數據架構,最終會將企業帶入「沼澤地」中,或者是產出任何人都難以理解的信息。
技術沒法解決分析問題,正確的流程是:先肯定一個業務問題,而後問,「我須要什麼數據來解決這個問題?」這將幫有效幫助您識別企業內數據的差距。
在一些組織中,數據分析被劃入一個單獨的部門,而另外一些組織則將數據分析深深地融入了跨職能團隊。
然而事實證實,以全部業務領域的數據爆炸和變化發生的速度,以單獨部門存在的數據分析開始不起做用了。另外一方面,隨着企業變得更加以客戶爲中心,應該讓數據分析專家成爲業務部門的核心,而不是將其獨立於做爲業務支持的部門。
當今企業面臨的許多複雜問題都存在於業務部門內,並且這些問題的許多解決方案都隱藏在數據中。數據科學家和技術專家,與這些業務部門密切合做,使用大型數據集和人工智能,將成爲孵化下一代產品、服務和客戶體驗的關鍵。
很高興咱們在分析團隊中擁有了許多受過良好教育的人,但這並非分析成功的必要條件。
企業傾向於認爲,若是數據分析師沒有博士學位,他們將沒法進行最佳的分析。然而現代分析須要各類技能——創建具備不一樣技能的「分離艙」,包括那些精通新興技術和開源軟件的人、大數據架構師、數據工程師、數據科學家、數據可視化專家等等,纔是最重要的。
歷史上新技術的引入擾亂了許多工做和行業,人們一樣擔憂人工智能會消除人們執行某些任務的必要。
雖然AI解決方案比解決某些問題的人要好得多,好比AI能夠更快地閱讀,記住更多,而且比任何人都能更好地進行復雜數學關係的計算。可是,AI也沒法應對真正全新的變化,這是人類擅長的地方。
能夠確定的是,某些工做已經因AI的興起而消失或減小,與此同時這種趨勢還在增加。儘管如此,咱們理解和解決「徹底不可預見的狀況」的優點不會被任何目前的AI技術所取代。在可預見的將來,最有效的方法是經過AI系統來加強人類的能力,取代人工的「繁重」。雖然人工智能正致使許多工做崗位發生變化,可是人們會將成爲這一商業生態系統的重要組成部分。
掃碼進入CDA官方小程序,解鎖更多新鮮資訊和優質內容,還有免費試聽課程,不要錯過喲!