走進大數據的世界

在這個網絡飛速發展的時代,PC、手機愈來愈智能,每一個人鏈接網絡世界的成本愈來愈低,端產生的流量就愈來愈龐大,若是把這些數據都存儲下來利用,大數據就誕生了。咱們作個簡單的計算:中國7億(15年統計)手機網民,天天瀏覽30分鐘網頁(圖片、視頻流量更大),大約會瀏覽30個網頁,每一個網頁1KB流量,則會產生30KB流量,那麼全國手機網民會產生至少20P數據流量。這麼大的數據,如今我的硬盤最大也才16T吧,可是全國網民天天都要產生1000個最大硬盤的數據,對服務商來講,如此龐大的數據,就是大數據了。若是想要將這個龐大的數據利用起來,好比作個智能推薦的功能,那就涉及到下面要介紹的大數據相關的技術了。sql

img

誰會用大數據

大數據的利用價值還在不斷被挖掘,就像一個巨大的寶藏庫。目前,大數據大多在金融、電商、信用評估、視頻等領域,而且作智能推薦的較多。比較知名的企業:數據庫

  • 亞馬遜 | 阿里巴巴 | 美團 等電商利用大數據作智能推薦和廣告決策
  • 銀行 | 信貸 等徵信企業會經過大數據評估我的或企業的信用等級
  • T-Mobile | 中國移動 等移動運營商經過大數據智能推薦消費套餐
  • YouTube | 搜狐 等視頻網站經過大數據智能推薦視頻
  • Starbucks 等餐飲企業經過大數據決策店面地區和位置

消費者研究公司Mintel在2015年的報告中指出43%的喝茶飲的顧客不會添加糖,星巴克便根據這份報告創造了兩個不加糖的冰茶K-杯、芒果綠色冰茶桃色紅茶。網絡

iced-tea

大數據怎麼存儲

目前存儲大數據通常採用NoSQL (Not Only SQL)分佈式數據庫。架構

傳統的數據庫如Oracle、MySql等都是關係型數據庫,存儲的是結構化的數據,能夠經過SQL語句進行增刪改查等操做。可是NoSQL是一種能夠水平向擴展以及分佈式計算的數據存儲技術,存儲半結構化的數據,而且再也不使用SQL語句做爲操做方式,而是使用列存儲或者key-value等多種形式進行存儲查詢操做。框架

常見的NoSQL數據庫分類:機器學習

  • 列存儲: HBase
  • 文檔存儲: MongoDB
  • Key-Value存儲: Redis

nosql-vs-sql

使用NoSQL的公司有:Google、Facebook、Adobe、Linkedin等nosql

大數據怎麼處理

因爲大數據的數據量之大,傳統的數據處理軟件很難快速的計算出想要的結果,所以大數據的處理技術也相對較困難和複雜。通常的,處理大數據會使用如下流程:分佈式

1. 數據採集

首先須要從傳統的(分佈式)數據庫中讀取數據,進行清洗、轉換、集成,最後加載到數據倉庫。學習

二、數據存取

通常以分佈式雲存儲爲架構,存儲時須要使用NoSQL數據庫爲主,關係數據庫爲輔的方式進行存儲。大數據

三、數據處理

對數據的處理通常採用天然語言處理,天然語言處理是研究人與計算機交互的語言問題的一門學科。天然語言處理後能將數據進行分割成很小的單位。

四、統計分析

統計分析時會利用多種分析技術,如logistic迴歸分析、聚類分析、假設檢驗、顯著性檢驗、等。

五、數據挖掘

挖掘有價值的數據,採用的手段如分類、估計、預測、相關性分組或關聯規則、聚類。  

六、模型預測

該階段的目的是進行將來目標預測,經過創建預測模型、機器學習、建模仿真等手段進行計算。 

七、結果呈現

最終的處理結果會經過雲計算、標籤雲、關係圖等進行展現。

處理大數據的框架愈來愈多,使得處理大數據也愈來愈方便,但更多的是根據商業用途和業務場景進行劃分,選取最合適的技術最重要。

bigdata-hanle

大數據離咱們遠嗎?

大數據好像生來就是大企業在玩兒的東西,雖然咱們每一個人可能都貢獻了一些數據,但咱們離大數據是否是很遠?答案是否。最典型的,淘寶的商品推薦功能。想必每一個人都有淘寶購物的經歷,在準備搜索某個寶貝的時候,淘寶客戶端會實時推送不一樣的商品,有時候用戶會發現推送的商品正是本身想要購買的。但用戶並無該商品的購買記錄。那淘寶是如何作到的呢?答案就是大數據+智能推薦。淘寶背後正是對千萬用戶的消費習慣進行分析挖掘,才能作到這樣的準確推薦。

相關文章
相關標籤/搜索