身邊的大數據和咱們的着手點

身邊的大數據和咱們的着手點算法

2014年8月17日~數據庫

從上次在圖書館外等小孩借書開始考慮這個問題,已經有好幾個月了。一直在思考,也動手作了一些嘗試,可是一直「在過程當中」。期間,再次翻閱了《大數據時代》和相關的網上資源,天天除了工做,總在思考將這段的思路總結一下。編程

早期的精確統計,或隨機取樣,到如今的「樣本=所有」的大數據思想出現,我感受咱們能夠作點事情了。雖然一直忙碌於「企業應用」的事情,不過總有一份「互聯網的基因」存在。從最先採集的50多POI,到最近收集的300多移動上網過程數據,作一個數據分析,作一下大數據時代的嘗試。數組

大數據發展的核心動力來源於人類測量、記錄和分析世界的渴望。信息技術變革隨處可見,可是現在的信息技術變革的重點在「T」(技術)上,而不是在「I」(信息)上。如今,咱們是時候把聚光燈打想「I」,開始關注信息自己了。app

不管是成熟的互聯網仍是正熱的移動互聯,都在天天產生大量的數據,若是不進行處理挖掘,這些數據將老是沉睡冰藏在各地的硬盤中。如今處理能力和存儲空間都變的愈來愈廉價,是時候將「數據」變成「信息」,將「信息」變成「知識」,用知識來指導組織的運營和個體的平常生活了。運維

「數據」可能仍是硬盤的負載,「知識」就是提升人們幸福感的源泉。編程語言

本文是我在「負載」向「源泉」前進過程當中的一些思考總結,供見着參考,但願同業者交流。分佈式

1、        多大算是大數據

聽說微軟的拼寫檢查基礎數據量是千萬條,谷歌的的智能翻譯基礎數據量是千億,有次聽利物浦大學的教授講的,所謂「大數據」至少要到10的10次方,到這個數量級,咱們日常的數據來源是較可貴到了。函數

不過,看《大數據時代》分析的摔跤比賽樣本,使用的是「11年時間裏,約64000場摔跤比賽的記錄」,要經過這些大數據來尋找其異常性。仍是分析出了比賽成敗的人爲因素和心理因素。工具

看來,所謂「大」,也要看數據樣本的對象了。因此我把這裏叫作「身邊的大數據」比較合適。這裏的身邊的大數據包括:我對本身的位置行爲採集和記錄,一些參與測試者的上網過程記錄。

若是,你有本身的大數據資源,咱們也能夠一塊兒分析。

2、        對大數據的指望

面對一個數據集合的時候,人都帶有必定指望的,至少是「初步的認識和指望」。若是漫無目的地「從裏面找出規律」,也不知道是什麼規律了。

「對數據特徵的初步瞭解和理解」,任何事情不可能憑空造出個算法或模型來,就像「TRIZ理論」,對發明問題也能夠提供些解決套路同樣。

聽過一個恐龍級公司分析銀行數據,基本的指望包括:

l  銀行用戶的資金變更狀況,逐減的是夕陽客戶,波動式上升的就是朝陽客戶。

l  朝陽客戶的地域分佈狀況,增長相應的門店和客服經理,提高客戶服務的滿意度。

l  朝陽客戶的行爲特徵,提供更加貼心的服務,挖掘潛在的客戶價值。

l  門店的儲戶增加狀況,儲蓄增加狀況。月度,年度波動狀況,避免騙儲增業績的狀況。

l  在初期「指望項」以外,在數據分析過程當中,一些中間結果,作一些統計分析,能夠產生其它數據結果,好比:

n  客戶的年齡段

n  不一樣客戶到訪門店的時間段特徵

n  不一樣時間段,不一樣門店的排隊狀況

n  重要客戶車位佔用和預留計劃

n  客流量和天氣的關聯變更

n  儲蓄量、投資量與國家經濟增加的關聯變化

n  銀行關鍵業務指標預測和後續投資量

n  投資和風險回報的關聯關係

 

3、        數據處理過程和產生的結果

首先,持有一個大數據集(好比銀行),或者能得到持續增加的大數據源(好比互聯網應用),根據對數據特徵的初步瞭解和理解,進行統計分析,能夠產生初步的數據規律模型。

模型的創建和改進,能夠從如下維度,從對數據的基礎特性瞭解和理解,創建多維度模型:

l  指望的結果模型

l  分析過程當中間結果模型

l  實際結果模型

l  人工辨識的數據特徵模型

l  多維度數據統計模型

身邊的大數據和咱們的着手-1.

2014年9月3日,百度世界發佈的大數據應用產品「城市預測」,「景點預測」,「高考預測」,「世界盃預測」,「歐洲聯賽預測」,「經濟指數預測」。雖然感受玄妙,可是對掌握這樣的資源,有能創建相應的預測模型仍是佩服不已。

身邊的大數據和咱們的着手-2.

4、        個人數據處理模型

建模(提綱):

l  時間特性

l  地點和位置特性

l  日增特性

l  人的移動特性(軌跡)

l  異常排序統計

l  上網過程和天氣變化的關聯

l  綜合分析出人的特性

至目前,已有的「大數據集」,按照以上模型進行一次單機「非遍歷」處理,須要45分鐘以上。接下來我計劃進行一些專業處理環境的搭建和嘗試。

歡迎關注後續。謝謝!

5、        附錄

Hadoop和Storm

Storm是一個免費開源、分佈式、高容錯的實時計算系統。它與其餘大數據解決方案的不一樣之處在於它的處理方式。

Hadoop 在本質上是一個批處理系統,數據被引入Hadoop文件系統 (HDFS) 並分發到各個節點進行處理。當處理完成時,結果數據返回到 HDFS 供始發者使用。Hadoop的高吞吐,海量數據處理的能力使得人們能夠方便地處理海量數據。可是,Hadoop的缺點也和它的優勢一樣鮮明——延遲大,響應緩慢,運維複雜。Storm就是爲了彌補Hadoop的實時性爲目標而被創造出來。

 

S語言和R語言

S語言是由AT&T貝爾實驗室開發的一種用來進行數據探索、統計分析、做圖的解釋型語言。它的豐富的數據類型(向量、數組、列表、對象等)特別有利於實現新的統計算法,其交互式運行方式及強大的圖形及交互圖形功能使得咱們能夠方便的探索數據。

目前S語言的實現版本主要是S-PLUS。它基於S語言,並由MathSoft公司的統計科學部進一步完善。做爲統計學家及通常研究人員的通用方法工具箱,S-PLUS強調演示圖形、探索性數據分析、統計方法、開發新統計工具的計算方法,以及可擴展性。

S-PLUS能夠直接用來進行標準的統計分析獲得所需結果,可是它的主要的特色是它能夠交互地從各個方面去發現數據中的信息,並能夠很容易地實現一個新的統計方法。

R語言是統計領域普遍使用的,誕生於1980年左右的S語言的一個分支。 R語言是S語言的一種實現。S語言是由AT&T貝爾實驗室開發的一種用來進行數據探索、統計分析、做圖的解釋型語言。最初S語言的實現版本主要是S-PLUS。S-PLUS是一個商業軟件,它基於S語言,並由MathSoft公司的統計科學部進一步完善。

R是一套完整的數據處理、計算和製圖軟件系統。其功能包括:數據存儲和處理系統;數組運算工具(其向量、矩陣運算方面功能尤爲強大);完整連貫的統計分析工具;優秀的統計製圖功能;簡便而強大的編程語言:可操縱數據的輸入和輸出,可實現分支、循環,用戶可自定義功能。與其說R是一種統計軟件,還不如說R是一種數學計算的環境,由於R並非僅僅提供若干統計程序、使用者只需指定數據庫和若干參數即可進行一個統計分析。R的思想是:它能夠提供一些集成的統計工具,但更大量的是它提供各類數學計算、統計計算的函數,從而使使用者能靈活機動的進行數據分析,甚至創造出符合須要的新的統計計算方法。

本文地址,http://blog.xufun.cn/?p=655

相關文章
相關標籤/搜索