數字是人類發明的最重要的概念之一,與整我的類文明進程相伴相生算法
早在8000年前美蘇爾地區商人利用泥球計算商品銷量安全
商鞅也說過經典的「強國知十三數「:竟內倉、口之數,壯男、壯女之數,老、弱之數,官、士之數,以言說取食者之數,利民之數,馬、牛、芻藁之數。網絡
我國古代的孫子兵法也有五條基本原則:「度(國之大小)、量(糧草資源多少)、數(軍隊數量多少)、稱(各方實力對比)、勝「架構
從這些概念中均可以明白,數字是從古至今中人類一直在使用的東西,而且伴隨着人類的發展也在不斷的完善與進步。框架
對數字的利用在推進人類文明進步的時候都發揮了重大做用例如:美國製憲會議。機器學習
在制憲會議中,因爲在制定參衆兩院分權機制的過程當中,衆議院的席位要按照人口多少來進行分配,擁有衆多黑奴的南方各州因而就黑奴是否應該歸入人口總數與北方各州展開了激烈辯論。最終,大會決定,每隔黑奴按照3/5個白人(自由人)的標準歸入南方人口的總數。這個3/5頁寫進了憲法,成爲了黑奴不平等的歷史見證。但就當是而言,這個數字的制定,爲推進憲法制定作出了重大貢獻。分佈式
而且數字做爲基本工具,爲整個科學大廈奠基了基石工具
人口普查是人類第一次有意識的、大規模的利用數據,統計學也就在人口普查中誕生了。oop
人類最先的統計活動,就是起源於和人口狀況相關的社會調查。而統計(Statistics)一詞也最先見於17世紀的德國,原意爲國勢學。性能
最初,人口普查時爲了徵稅、評估國家的軍事實力、實施社會控制。然後,歸入普查範圍內
的項目數愈來愈多,普查自己的細分程度也不斷加深,統計的難度和工做量不斷增長。當時十八世紀的美國,每隔十年就須要進行一次普查,統計數據就要耗費8年。由此催生了自動製表技術抽樣統計推斷的一系列方法。
統計學成爲近代數據科學最前沿的領域的發展與四個特質是息息相關的:
所謂數據,是指指用於記錄某項客觀事物運行狀態或事物屬性的有序數字集合,而數據分析則是挖掘數據所蘊藏的規律,而數字規律,即事物規律,而後用這些規律進一步的去指導生產生活,來不斷的完善人們的生活。
2009年出現了一種新型流感病毒,這種甲型H1N1流感結合了致使禽流感和豬流感的病毒特色,在短短几周以內迅速傳播開來。全球的衛生機構都擔憂一場致命的流感病毒即未來襲,更有評論家警告說,可能會爆發大規模流感。
然而更加糟糕的是,針對這個問題咱們還沒研發出對抗這種新型流感病毒的疫苗,所以能作的事情只是根據病毒出現地方進行應急防範,以延緩傳播速度。這就要求必須先知道這種流感病毒出如今了哪裏。
然而,患者只會由於患病後,甚至患病多往後纔回去意願,由於醫療機構的統計彙總效率比較底下,致使上報疾控中心須要時間,而且統計彙總也須要時間,形成的後果是公共衛生機構一般在兩週後才能統計出全國各地患病信息這也致使了公共衛生機構在疫情爆發的關鍵時期反而無所適從。
可是,在H1N1爆發的幾周前,谷歌公司的工程師們在《天然》雜誌上發表一篇論文,論述瞭如何利用人們在網上的搜索記錄來完成全美冬季流感的傳播預測,甚至能夠精確到特定的地區和州,這是由於他們利用了5000萬條人們的檢索詞頻和美國疾控中心在2003年至2008年間流感傳播時期的數據進行比較,並經過這些搜索記錄來預測這些是否患上了流感,最終這項研究最終大獲成功,他們的算法最終發現了45條檢索詞條的組合,最終預測結果和官方數據相關性高達97%,下面是預測的結果比較。
經過對2009年甲型H1N1流感的預測能夠看出,兩種統計方法表現出了兩種大相徑庭的效率:
谷歌的預測能夠爲公共衛生機構的預防流感措施部署提供極有價值的信息,更關鍵的是,這是一種從未使用過的預測工具。該事件所表明的價值觀和方法論,都深入的影響了咱們看待和使用數據的方法。
咱們但願經過此次案例獲取患病人次的通常規律,進行患病人次的預測。
首先進行背景介紹:
而後咱們進行目標分析,咱們但願能夠達成三點:
咱們選擇時間序列模型進行分析,查看一下數據圖。
下面查看實際的患病人次與預測的人次之間的差距
經過對結果進行分析能夠看出,以季度爲單位進行迭代式動態預測,以偏差率做爲評判指標,預測集和訓練集無交集,可見模型較爲穩健,並將偏差率控制在5%-10%左右。
讓咱們簡單覆盤一下谷歌公司如何作到這麼精準的預測,在我看來主要是由於擁有三點:
在這個大數據時代,全部的大型互聯網公司都在朝向大數據領域發力,而上述谷歌公司所擁有的的三點,將會最終構成推進數據科學發展的三駕馬車。
IT技術的蓬勃發展,能夠用摩爾定律準確的描述,1965年,英特爾創始人之一戈登摩爾在考察計算機硬件的發展規律後,提出了著名的摩爾定律。
該定律認爲,同一面積芯片上可容納晶體管的數量,每隔16-24個月將翻一倍,計算性能也將翻一倍。換而言之,也就是每隔16-24個月,單位價格可購買到的計算能力將翻一倍。在隨後的幾十年內,摩爾定律被無數次的被印證。
而同步發展的還有網絡寬帶和物理存儲容量
下圖是硬盤存儲器一兆節價格一覽圖(美圓),從圖片中能夠看出,半個多世紀以來,存儲器價格幾乎降低到原來價格的億分之一。
下圖是網絡寬帶變化的趨勢
伴隨着物理硬件升級,IT領域的OTT式技術革新,分佈式計算和量子計算機的出現,也必將決定性的改變計算資源供給端的狀況:
分佈式集羣能夠調動不一樣的計算資源爲同一個計算目標服務,能夠實現一個計算目標能夠調配無限計算資源並予以支持,解決大數據情境中運算量過大超出單臺屋裏機運算承受能力極限的問題,最終達成同物理計算資源協同調配的成效,也爲後續的雲計算奠基了基礎。
藉助分佈式集羣、Hadoop生態進行算法執行,使用者創造工具,那麼工具確定也會反過來影響使用者,而分佈式式算法能夠解決多個步驟:
雲計算是指在虛擬化技術的基礎之上,根據實際計算需求定製化的輸出計算資源從而獲取計算資源,打通了計算資源供給和需求的兩端,能夠不用在本地配給計算資源,直接經過互聯網給計算中心發送計算請求,計算中心在根據計算要求分配計算資源並執行運算,最終將計算結果返回給用戶。
經過雲計算,只要能聯網、有消息發送終端和接收終端,就能隨時隨地申請計算資源執行計算,終端再也不須要擁有複雜運算能力,也可以執行復雜運算,進一步執行復雜決策,雲計算可以給萬物賦能,賦予萬物執行計算的能力。
固然,雲計算所表明的賦予萬物計算能力中心化的管理,也客觀上促進了數據統一存儲,同時也推進了物聯網的興起。
IT行業每隔15-20年就會迎來一輪重大的技術革新,在1980年先後,第一次信息化浪潮也就是我的計算機的普及到1995年先後,第二次信息化浪潮也就是互聯網化的浪潮。伴隨着這兩次信息化浪潮的出現,數據的誕生方式產生了重大的變化,從原先的能夠蒐集的小樣本抽樣轉變爲後來的自動生成無窮無盡的數據。
90年代末,互聯網技術興起,主要的做用是信息的傳播和分享,到2004年Facebook和Twitter相繼問世,互聯網成爲了人們實時互動、交流協同的載體,全世界的網民都開始變成了數據的生產者,在到2012年喬治大學的教授李塔魯考察了Twitter上產生的數據量,他做出估算說,過去50年,《紐約時報》總共產生了30億個單詞,如今僅一天,Twitter上就產生80億個單詞的信息量。
如今咱們經過智能手機+智能穿戴+感知傳感器,這極大程度上拓展了數據採集渠道,咱們利用智能手機與其餘組織或我的發生實時互動,行爲數據也被實時記錄,智能穿戴和傳感器無時無刻,不在自動採集數據,在能夠預見的將來,以人爲核心的一切事物運行和狀態都將被數據所記錄。
數據的價值,在於數據結論的產出,也就是如何使用數據,就如同埋在地底下的石油,須要開採和冶煉,纔可以真正挖掘其價值。因此在大數據時代,數據是基礎,而算法是核心。
算法核心用途是挖掘事物運行內在邏輯和規律,若是說數據是石油,計算能力是開採石油的工具,那麼算法,則是石油冶煉技術,將算法做用於數據,產出有價值結論的過程,實際上就是挖掘數據價值的過程。
目前來講以神經網絡爲表明的機器學習類算法,正掀起一場針對統計學算法的革命。
阿里集團學術委員會主席、湖畔大學教育長:曾鳴提出的見解是:所謂學習是經過幾率論的方法,不斷地去經過正反饋來優化結果,而不是像人同樣去思考學習。這種機器學習的方法必須基於海量數據的校驗,必須基於算法的一個不斷反饋調整的過程。
隨着社會老齡化程度加深,我國各地醫保壓力持續增長,部分地區已經面臨穿底風險。而且醫保欺詐面臨着如下的問題:
在此背景下,利用大數據的方法,對醫保騙保行爲進行智能識別,在騙保行爲發生的第一時間進行識別與制止,則可以起到較好的反欺詐效果。
首先,咱們抽象定義時間和時間,以及它們的屬性。
接着,將就醫路徑抽象成有時序關係的事務集。
而後查看各種的相關指標
CDA就曾與重慶衛計委展開合做,就一些病情對患病人羣進行調查分析,而且能夠針對某些具體的病症進行觀察,成功的幫助衛計委對患病人羣進行管理預測。
隨着科技不斷的進步,數據科學也在不斷的進步,而主要推進數據科學進步的有三部分:
這三部分是相輔相成、相互促進,而且缺一不可的,只用繼續的發展這三部分,數據科學才能在發展的道路上,擁有源源不斷的動力。
根據2018年1月18號頒發的中國《人工智能標準化白皮書》定義,咱們能夠將人工智能視爲數據科學皇冠上的明珠,目前的主流研究仍然集中於弱人工智能,並取得了顯著進步如語音識別、圖像處理和物體分割、機器翻譯等方面取得了重大突破,甚至能夠接近或超越人類水平。可是弱人工智能並不能成爲真正實現推理和解決問題的智能機器,這些機器表面看像是智能的,可是並不真正擁有智能,也不會有自主意識。
2018年1月國家標準化管理委員會頒佈的《人工智能標準化白皮書》對人工智能學科的基本思想和內容做出瞭解釋:
而人工智能隨着這麼多年的發展,能夠將其發展歷程分爲三代
第一代人工智能是基於規則的「智能」,典型表明:IBM深藍(Deep Blue)
1997年5月11日美國IBM公司研製的並行計算機「深藍」擊敗了雄踞世界棋王寶座12年之久的卡斯帕羅夫。可是國際象棋每一步的選擇以及應對對手某一特殊步驟的最有方案是肯定的,只要足夠多的定性棋譜以及足夠大的計算速度,就可以在對手走任何一步的時候準確判斷出下一步應該如何走,就本質上而言,1997年的深藍是基於規則的人工智能,深藍自己並不會創造新的戰略戰術。
第二代人工智能是可以自主學習的人工智能,典型表明:谷歌的AlphaGo
2016年3月9日到15日,阿爾法圍棋程序挑戰世界圍棋冠軍李世石的圍棋人機大戰五番棋在韓國首爾舉行。比賽採用中國圍棋規則,最終阿爾法圍棋以4比1的總比分取得了勝利。
2017年5月23日到27日,在中國烏鎮圍棋峯會上,阿爾法圍棋以3比0的總比分打敗排名世界第一的世界圍棋冠軍柯潔。在此次圍棋峯會期間的2017年5月26日,阿爾法圍棋還打敗了由陳耀燁、唐韋星、周睿羊、時越、羋昱廷五位世界冠軍組成的圍棋團隊。
假如數據變爲無限,那麼世界將會變成什麼樣子,目前第三代人工智能的表明是百戰百勝的AlphaGo Zero
2017年10月19日,谷歌DeepMind團隊在Nature發表論文,以《Mastering without human knowledge》爲名,詳細介紹了沒有再用人類歷史棋局做爲訓練樣本,訓練過程從隨機開始,經過左右互搏精進棋藝,最終以100:0打敗了AlphaGo的AlphaGo Zero。
可是以上的這些人工智能,都是在信息透明,規則透明,結構明確,且爲圍棋規則和判斷棋局的輸贏自己也是一種監督信號,總的來講還沒有脫離人類控制
企業要應用數據、釋放數據的價值,那麼核心就在於構建從算法到市場應用的反饋閉環,從打通算法結論到實際應用的通道,到給予算法及時有效的市場反饋再到訓練算法並在訓練過程當中優化。這三個步驟是不斷的在循環完善自身的,造成一個自我促進,自我發展的閉環。
如今的社會能夠由而且有一些領域已經開始由算法來驅動,在人類的基礎重複決策領域上代替或指導人類參與決策,例如:
而且算法能夠在人類未知的領域開拓先知,好比IBM就實驗過,如何快速決定某種蛋白質對治療癌症有效,通常人工試驗時,每研究一種蛋白質,耗費的人力物力都很是大。10年時間也可能只能研究10多種。可是使用機器學習判斷時,機器「讀」完了近30年來有關蛋白質研究的全部論文,從中肯定蛋白質生物屬性上的關係,進而決定哪一種蛋白質更值得研究。這種速度是比人類快不少倍,而這一切只須要機器有強大的計算能力就能夠了。
來自MIT經濟學教授艾瑞克.布萊恩.傑弗森的觀點他認爲廣泛性技術(GPT)應該有三種特徵:
而每當發生重大的技術突破時,因爲它對整個社會的影響力巨大,甚至須要整個社會進行從新組織,來適應這種新技術。
人工智能是數據養育的智能,其決策核心是算法,同十八世紀工業革命經過機器生產代替手工勞動從而釋放人類勞動力相似,數據智能就是能將經過參與、代替人類決策的方式,幫助人類釋放腦力
如今計算型社會已經到來,只是尚未開始流行起來,就好比無人駕駛如今所遇到的道德和法律上的難題,和數百年前汽車代替馬車的過程有這驚人的類似性,因此咱們如今已經迎來了計算型社會,只是若是想全面建成的話,還有很長的一段路要走。
人才對於企業的價值體如今了勞務輸出,創新能力以及人才吸引的做用,因此人才的需求如今的競爭已經算愈發的激烈,在發達國家裏,人才創造了了絕大部份價值,專門計算公司無形資產(如技術、專利、品牌等)的人認爲治理產出佔公司總價值的80%,接下隨着經濟轉型和產業升級,能夠預料到的人才需求競爭會愈發激烈
可是隨着互聯網化程度加深,信息資源可獲取性增強,以及高新產業快速發展與迭代,「時間戰場」、「注意力商人」等概念興起,企業員工流動性明顯加快,員工平均任期不斷降低。亞特蘭大聯邦儲備銀行考察了各年齡段和各時代員工的工做流動率的平均值發現:
在當今時代,人才和僱主的關係悄然發生變化,僱主和人才的「聯盟」正做爲一種新興的人才機制在互聯網時代大行其道,所謂聯盟,是指僱主與員工之間從商業交易轉變爲互惠關係的框架。而公司實行這種互惠的框架要得到收益只須要進行三步:
只有僱主與僱員結爲強大的聯盟,共同擁有持續的創新與豐富的智慧寶庫才能繁榮發展
經過人力資源分析,咱們能夠找到「獵取、培養和留住人才」的解決方案。
在2016年CDA就與期合做企業有利網,就針對有利網公司的內部開展了一項人力分析項目並取得顯著成效,經過制定數據指標體系來評估客服人員的工做績效,並經過構建模型來預測銷售人員的任期生命週期。
但對於整個行業而言,大數據人力資源管理尚處於行業探索期。根據Sierra-Cedar公司的最新報告指出,企業人力資源管理應用大數據者尚不超過9%,IBM曾經對342名首席人力資源官員進行了研究,結果報告顯示:
僅有不到16%的公司可以使用數據針對將來的員工問題進行預測並採起行動。所以,一個比較好的方式方法,是參考已經成熟的應用數據的商業模式,來進行人力資源分析。
根據美國巨獸公司負責大數據分析和商業智能的全球副總裁Jean Paul Isson的觀點,人力資源和市場營銷有着顯著的共性,他們都曾是「憑直接和經驗做戰」的團隊,以及都曾是公司的「成本中心」
可是有些公司的市場營銷很早就開始利用數據,實現了嚴謹的藝術與科學之間的平衡,發揮了巨大的商業價值,走在時代潮流前面的公司已經開始逐漸摒棄那些際遇直覺的判斷和實現。
目前進行商業分析的流程通常有兩種類型,一種是IBM商業分析方法論,一種SAS的數據挖掘方法論:
根據商業分析的通常流程,咱們能夠總結出企業應用商業分析的三個階段:
在大數據人力資源管理,在實際應用相對較爲成熟的,是由於在員工管理領域,主要是由於如下三點:
接下來,以滴滴公司對司機管理爲例,來對大數據企業員工管理進行簡單說明。
滴滴公司的員工管理面臨着兩個方面的問題,一方面隨着滴滴公司在打車領域市場地位確立,旗下全職、兼職司機數量衆多,另外一方面,因爲不存在硬性制度約束,公司又面臨單純依靠業務關係很難與司機創建長期穩定僱傭關係的困境。
做爲數據驅動的公司,滴滴公司須要考慮將業務領域應用很是成熟的大數據技術應用於司機管理領域。
大數據企業員工管理的工做又可分爲三個主要方面,也是滴滴公司在進行智能化司機管理前的三方面工做,分別是員工畫像,員工價值評估和管理機制優化。
員工畫像包括兩部分,爲後續的分析先作好數據鋪墊
工做內容
客戶畫像
員工畫像
第一層次採集基本數據
採集與市場營銷相關的客戶數據基礎字段,包括客戶生物屬性、社會屬性等;年齡、性別、收入、資產情況、消費記錄等。
採集與人資管理相關的員工數據基礎字段,包括客戶生物屬性、社會屬性等;年齡、性別、工齡、家庭情況、司機職稱、車輛信息、駕駛記錄、客戶評分等、
第二層次根據基本數據生成標籤
如:高學歷、青年、未婚、電子產品控、科技工做者等。
車輛安全係數高、駕駛經驗豐富、工做時間穩定、出勤率高、駕駛平穩、事故率低、五星司機等。
和客戶價值評估同樣,接下來在員工基本數據的基礎上,去尋找高價值司機,而後在高價值司機羣體重,經過其標籤,挖掘共性:
這些部分是和管理經驗相符合的,更重要的是,數據分析能夠提供一整套數字化結論的同時,還提供了可以行之有效的解決方案。
員工管理制度優化與運營策略創新相似,針對不一樣價值等級的員工,基於相應的管理策略
員工價值
核心策略
具體方法
高價值員工
維護爲主
收益優化(派單策略調整);特權福利(車輛升級,優惠購車等);定製化保賠服務等
潛在高價值員工
培養爲主
收益保證(派單策略調整);階段性鼓勵措施等
其餘員工
激勵爲主
階段性鼓勵措施、搶單激勵措施等
流失員工
激勵爲主
迴歸福利等等
並經過算法自動的進行決策,進行準確、快速、高效、廉價的決定,同時和《聯盟》思路高度契合,由僱傭關係轉變爲互相投資的互惠關係。
每一個企業能夠根據企業的需求,爲企業內部員工提供系統化、個性化的培訓方案,提升員工的技術水平,固然若是企業內部暫時沒有能力去執行這樣的方案的時候們能夠尋找專業的提供數據分析方面的企業內訓服務,幫助員工快速提升技術水平,實現合做雙贏。
下面是有關CDA與某公司合做制定的有關員工的管理分析