1、
數據就是生產力。筆者兩年前在袋鼠雲作的國內某省一個交警項目上,面對着海量的車輛軌跡數據時,第一次感覺到什麼是數據的力量。算法
該項目是一個很是典型的數據中臺項目,主要數據資源有:省內機動車輛數據、駕駛員數據、交通違章數據、公安系統等相關數據。核心數據是經過攝像頭識別到的車輛軌跡數據,包含:車輛牌照數據、採集時間和採集地點數據,以及部分公路上獲取到的移動電子設備數據。架構
袋鼠雲的團隊利用這些數據作了如下應用:機器學習
車碼合一算法
利用已掌握的移動設備軌跡數據和車輛軌跡數據,來計算移動設備和車輛的匹配關係(因爲這兩種數據由兩套設備分別採集,數據獲取存在一個不肯定的時間差,且每一個採集點都是多車輛同時經過,因此沒法直接判斷哪一個移動設備是在哪一個具體車上)。學習
爲了解決這個問題,該項目起初的算法採用「機率計算模式」,匹配時間長,匹配準確率低。袋鼠雲選擇採用了另外一個邏輯匹配方式,實現了一輛汽車通過兩三個檢測點,就可以知道該車中的乘客所持移動設備與車輛的匹配關係,並且一旦匹配成功,即爲肯定關係。大數據
該算法目前已申請專利,詳情還可查看專利
專利名:一種交通監控數據匹配方法、系統及存儲設備
申請人:杭州玳數科技有限公司
申請日:2017-09-22
主分類號:G08G1/01(2006.01)I優化
經過該算法,最終咱們能夠清晰地瞭解到手機與車輛對應的實時詳細信息,最後對手機與車輛的關聯關係進行彙總統計,爲案件偵破提供數據支持。設計
黑車標籤
之前,很是有經驗的交警才能夠很明顯地根據車輛軌跡數據,發現疑似黑車的車輛。如何將經驗轉化爲經過統計學的方式進行黑車標記,咱們團隊成功探索出了如下三種方式:遊戲
一種是「專家經驗算法」,預製專家模型,篩選黑車。進程
另外一種是標定全部出租車,而後用出租車軌跡模型來構建「黑車軌跡模型」。項目管理
第三種是在第二種方法的基礎上,「利用確認的黑車結果,反向對模型進行再次優化」。幾種算法使用後,咱們能夠拿出該城市的詳細黑車名單。
運毒車輛模型
咱們利用「專家模型」,在海量車輛軌跡中尋找和標定可疑車輛,並對車輛當前軌跡進行實時分析和判斷,將以往在高速上某一時間段內的逢車必查模式,變成了逢車必查和重點車輛預警結合模式,從而使得黑車篩選效率大幅提高。
當咱們的團隊,在計算機屏幕和交警監控大屏後輔助公安幹警抓獲一個一個犯罪嫌疑人的時候,筆者感受本身的團隊正在觸碰一個傳統業務中從未觸碰到的領域。全知和全能是用來描繪造物主的,雖然咱們還離這個定位有着遙遠的距離,但已然真實地朝這個方面邁出了堅實的一步。
2、
數據是生產力。
筆者要講的另外一個例子是「國內某知名電商平臺」對顧客所作的「標籤體系」。這個也算是一個業內半公開的例子了吧,聽說該企業對顧客的標籤在3000個以上,也有一個講法是該平臺比你更瞭解你的老婆。
曾經有人認爲電子商務是一個零和遊戲,只是把傳統渠道中的一部分錢搶奪了過來而已。
其實,電商充分地利用了其所掌握的大量客戶行爲數據,精準描繪用戶畫像,而後經過精準的營銷方式極大激發了用戶的購物慾望(買買買),從而創造出更多的消費需求。據筆者不許確估算,該企業每一年在數據上所投入的成本應當是以百億計(幾萬個節點的存儲, 15%以上的員工爲數據相關人員)。商人是逐利的,能夠想象這些投入所帶來的商業產出又有幾何。
數據是每一個人最原始的一種慾望。若是數據真的極大豐富了,筆者也許會但願知道天空中某隻鳥兒什麼時候發出過一聲鳴叫,遙遠的海邊是否又有一朵濺起的浪花,深邃的宇宙中某個不知名的星球上是否是在發生過一場空前的風暴。然而這些最原始的渴望在種種現實條件的約束之下被深深的隱藏了起來。
當前的時代,隨着信息化和互聯網化進程的完善,人們各類行爲的上線讓咱們有機會積累大量的數據,這給了咱們一次小小的契機,能夠利用大數據處理技術將這些源數據變成一種新的生產力,誰可以優先地掌握和使用好這種力量,就一定會對企業總體能力帶來又一次的提高。
3、
數據是生產力,能夠做用於企業的方方面面:
描繪事實
不管是描述「事」,仍是描述「物」,用數聽說話永遠都顯得更準確一些。即便遠隔千里以外,只要把主要經營指標顯示出來,那麼一個企業大致上的業務狀況就可以瞭解到,正所謂指揮若定之中,決勝千里以外。
數據即是對客觀業務關鍵要素的一種提煉和抽象。比如醫生看患者,先無論高矮胖瘦,看病以前,作上一系列檢查,而後獲得各項身體體徵數據,對病人的總體狀況也就有了一個基本的瞭解。
又比如筆者的團隊,目前有多少個項目,哪些賺錢,哪些不賺錢,每一個項目都進展到了什麼程度,投入了多少人,花了多少錢,收了多少錢,還有多長時間作完,有沒有什麼風險等等,都是筆者要花不少時間每週都去梳理的。
然而:
在不少企業中即便是最基本的用數據描繪清楚業務,並在第一時間獲取到這些數據這個需求都每每得不到知足。
洞悉細節
數據會比人更加精準和敏感,經過數據能夠相對容易地發現事物之間的隱祕關係。筆者上面所提到的車碼合一算法就屬於這個範疇。
最簡單的關聯商品分析也能夠在實際應用中取得巨大成果。拿筆者在袋鼠雲負責實施的一個項目舉例:在該客戶的線下零售門店中,咱們在顧客完成商品購買時,利用管理「商品關聯分析」和「顧客消費偏好分析」的「綜合推薦結果」,在顧客購物小票下方打印一個實時的促銷小票,推薦一款或者幾款關聯商品並給予必定折扣。根據最後的統計,這個動做爲平均爲每一個門店提高了八到十個點的營業額。
數據智能
相對基礎的算法就可以解決企業中的不少問題,尤爲是面對大規模生產和運營場景的時候,每每依靠人的經驗就會變得很是被動。基本的統籌算法還有最優效益的求解分析,會爲平常工做不少的指導。線上數據的豐富和機器學習算法一方面讓以往不少場景造成完整的「數據閉環」,另外一方面也能夠藉助衆多的數據進一步優化算法模型。當豐富的數據量和數據計算引擎都具有時,算法工程師會爲企業創造不少意想不到的收穫和驚喜。
4、
數據是生產力,但有時候也會是一種桀驁的力,用得很差,不但浪費了企業投入的大量資本,更讓業務上的一系列配合動做無果而終,甚至傷到企業元氣,表如今如下幾個方面:
只重視「數據應用」,不注重「數據獲取」和「數據質量治理」。
不可以清晰地知道一個數據應用所對應的「數據供應鏈」,從而沒法評估獲取最終數據的總體成本、過程與時間週期,不少應用對這個過程估計不足,最後無果而終。
過於關注大數據的故事,而忽視了不少基礎的業務統計工做。
數據化自己比較複雜,並且也很是綜合,不是一種力量就可以解決的(是企業級戰略,而不是部門級工做)。
數據化缺少總體架構和規劃,小需求難以驅動基礎平臺建設(要集中力量辦大事,基礎平臺問題要在企業總體層面統一解決)。
因此大部分的企業在這種力量面前,都顯得舉棋不定和裹步不前,不少「理智」的企業則是駐足觀望等待結果,只有少數頭部客戶有勇氣和擔當作一個探索者和先行者,嘗試啓動企業全面數據化的轉型工做。
袋鼠雲從成立之初便伴隨着數十個行業頭部客戶,一塊兒進行企業全面數據化轉型建設。這個過程無疑是艱辛的,但也是收穫豐富的。後續的文章中,筆者會成體系的分享出來,與廣大讀者交流探討。
下期預告
企業數據化的建設,更多的要依靠規劃和設計來驅動。
咱們指望把這種規劃和設計變成一個可見的,可使用的引擎用以驅動整個企業數據化建設。
筆者用一個比喻來形容整個過程。咱們把數據比做最原始的食材,業務方比做食客,數據團隊是廚子,數據中臺是廚房。
如何烹飪好「企業數據化建設」這盤菜,且看
袋鼠雲數據中臺專欄V2.0第三期:企業數據化認知 — 數據化建設三範式
敬請期待!
本文做者
張旭 (花名:老虎)
袋鼠雲解決方案與交付副總裁
原用友股份應用集成業務部總經理,主數據管理專家、業務創新帶頭人
曾主導數十家國內500強企業的數字化建設原型項目的規劃與落地
擁有十多年企業服務和項目管理實施經驗
相關閱讀
袋鼠雲數據中臺系列專欄V1.0
淺析數據中臺策略與建設實踐
數據資源規劃與獲取
數據質量分析及提高
數據中臺設計與數據資產管理
數棧,企業級一站式數據中臺PaaS
企業數據指標的那些事兒
用戶標籤體系建設的四字箴言
數據應用與規劃
袋鼠雲數據中臺團隊2018年低調出品
關於袋鼠雲袋鼠雲是企業數據化總體解決方案提供商,是數據中臺架構倡導者、引領者,經過打通數據供應鏈,構建企業數據化驅動引擎,加速企業數據化進程,讓數據成爲企業核心競爭力。