在這個網絡飛速發展的時代,PC、手機愈來愈智能,每一個人鏈接網絡世界的成本愈來愈低,端產生的流量就愈來愈龐大,若是把這些數據都存儲下來利用,大數據就誕生了。咱們作個簡單的計算:中國7億(15年統計)手機網民,天天瀏覽30分鐘網頁(圖片、視頻流量更大),大約會瀏覽30個網頁,每一個網頁1KB流量,則會產生30KB流量,那麼全國手機網民會產生至少20P數據流量。這麼大的數據,如今我的硬盤最大也才16T吧,可是全國網民天天都要產生1000個最大硬盤的數據,對服務商來講,如此龐大的數據,就是大數據了。若是想要將這個龐大的數據利用起來,好比作個智能推薦的功能,那就涉及到下面要介紹的大數據相關的技術了。sql
大數據的利用價值還在不斷被挖掘,就像一個巨大的寶藏庫。目前,大數據大多在金融、電商、信用評估、視頻等領域,而且作智能推薦的較多。比較知名的企業:數據庫
- 亞馬遜 | 阿里巴巴 | 美團 等電商利用大數據作智能推薦和廣告決策
- 銀行 | 信貸 等徵信企業會經過大數據評估我的或企業的信用等級
- T-Mobile | 中國移動 等移動運營商經過大數據智能推薦消費套餐
- YouTube | 搜狐 等視頻網站經過大數據智能推薦視頻
- Starbucks 等餐飲企業經過大數據決策店面地區和位置
消費者研究公司Mintel在2015年的報告中指出43%的喝茶飲的顧客不會添加糖,星巴克便根據這份報告創造了兩個不加糖的冰茶K-杯、芒果綠色冰茶桃色紅茶。網絡
目前存儲大數據通常採用NoSQL (Not Only SQL)分佈式數據庫。架構
傳統的數據庫如Oracle、MySql等都是關係型數據庫,存儲的是結構化的數據,能夠經過SQL語句進行增刪改查等操做。可是NoSQL是一種能夠水平向擴展以及分佈式計算的數據存儲技術,存儲半結構化的數據,而且再也不使用SQL語句做爲操做方式,而是使用列存儲或者key-value等多種形式進行存儲查詢操做。框架
常見的NoSQL數據庫分類:機器學習
- 列存儲: HBase
- 文檔存儲: MongoDB
- Key-Value存儲: Redis
使用NoSQL的公司有:Google、Facebook、Adobe、Linkedin等nosql
因爲大數據的數據量之大,傳統的數據處理軟件很難快速的計算出想要的結果,所以大數據的處理技術也相對較困難和複雜。通常的,處理大數據會使用如下流程:分佈式
首先須要從傳統的(分佈式)數據庫中讀取數據,進行清洗、轉換、集成,最後加載到數據倉庫。學習
通常以分佈式雲存儲爲架構,存儲時須要使用NoSQL數據庫爲主,關係數據庫爲輔的方式進行存儲。大數據
對數據的處理通常採用天然語言處理,天然語言處理是研究人與計算機交互的語言問題的一門學科。天然語言處理後能將數據進行分割成很小的單位。
統計分析時會利用多種分析技術,如logistic迴歸分析、聚類分析、假設檢驗、顯著性檢驗、等。
挖掘有價值的數據,採用的手段如分類、估計、預測、相關性分組或關聯規則、聚類。
該階段的目的是進行將來目標預測,經過創建預測模型、機器學習、建模仿真等手段進行計算。
最終的處理結果會經過雲計算、標籤雲、關係圖等進行展現。
處理大數據的框架愈來愈多,使得處理大數據也愈來愈方便,但更多的是根據商業用途和業務場景進行劃分,選取最合適的技術最重要。
大數據好像生來就是大企業在玩兒的東西,雖然咱們每一個人可能都貢獻了一些數據,但咱們離大數據是否是很遠?答案是否。最典型的,淘寶的商品推薦功能。想必每一個人都有淘寶購物的經歷,在準備搜索某個寶貝的時候,淘寶客戶端會實時推送不一樣的商品,有時候用戶會發現推送的商品正是本身想要購買的。但用戶並無該商品的購買記錄。那淘寶是如何作到的呢?答案就是大數據+智能推薦。淘寶背後正是對千萬用戶的消費習慣進行分析挖掘,才能作到這樣的準確推薦。