走進大數據的世界

時間 2019-12-11

標籤走進數據世界简体版

原文原文鏈接

在這個網絡飛速發展的時代，PC、手機愈來愈智能，每一個人鏈接網絡世界的成本愈來愈低，端產生的流量就愈來愈龐大，若是把這些數據都存儲下來利用，大數據就誕生了。咱們作個簡單的計算：中國7億（15年統計）手機網民，天天瀏覽30分鐘網頁（圖片、視頻流量更大），大約會瀏覽30個網頁，每一個網頁1KB流量，則會產生30KB流量，那麼全國手機網民會產生至少20P數據流量。這麼大的數據，如今我的硬盤最大也才16T吧，可是全國網民天天都要產生1000個最大硬盤的數據，對服務商來講，如此龐大的數據，就是大數據了。若是想要將這個龐大的數據利用起來，好比作個智能推薦的功能，那就涉及到下面要介紹的大數據相關的技術了。sql

誰會用大數據

大數據的利用價值還在不斷被挖掘，就像一個巨大的寶藏庫。目前，大數據大多在金融、電商、信用評估、視頻等領域，而且作智能推薦的較多。比較知名的企業：數據庫

亞馬遜 | 阿里巴巴 | 美團 等電商利用大數據作智能推薦和廣告決策

銀行 | 信貸 等徵信企業會經過大數據評估我的或企業的信用等級

T-Mobile | 中國移動 等移動運營商經過大數據智能推薦消費套餐

YouTube | 搜狐 等視頻網站經過大數據智能推薦視頻

Starbucks 等餐飲企業經過大數據決策店面地區和位置

消費者研究公司Mintel在2015年的報告中指出43%的喝茶飲的顧客不會添加糖，星巴克便根據這份報告創造了兩個不加糖的冰茶K-杯、芒果綠色冰茶桃色紅茶。網絡

大數據怎麼存儲

目前存儲大數據通常採用NoSQL (Not Only SQL)分佈式數據庫。架構

傳統的數據庫如Oracle、MySql等都是關係型數據庫，存儲的是結構化的數據，能夠經過SQL語句進行增刪改查等操做。可是NoSQL是一種能夠水平向擴展以及分佈式計算的數據存儲技術，存儲半結構化的數據，而且再也不使用SQL語句做爲操做方式，而是使用列存儲或者key-value等多種形式進行存儲查詢操做。框架

常見的NoSQL數據庫分類：機器學習

列存儲： HBase

文檔存儲： MongoDB

Key-Value存儲： Redis

使用NoSQL的公司有：Google、Facebook、Adobe、Linkedin等nosql

大數據怎麼處理

因爲大數據的數據量之大，傳統的數據處理軟件很難快速的計算出想要的結果，所以大數據的處理技術也相對較困難和複雜。通常的，處理大數據會使用如下流程：分佈式

1. 數據採集

首先須要從傳統的（分佈式）數據庫中讀取數據，進行清洗、轉換、集成，最後加載到數據倉庫。學習

二、數據存取

通常以分佈式雲存儲爲架構，存儲時須要使用NoSQL數據庫爲主，關係數據庫爲輔的方式進行存儲。大數據

三、數據處理

對數據的處理通常採用天然語言處理，天然語言處理是研究人與計算機交互的語言問題的一門學科。天然語言處理後能將數據進行分割成很小的單位。

四、統計分析

統計分析時會利用多種分析技術，如logistic迴歸分析、聚類分析、假設檢驗、顯著性檢驗、等。

五、數據挖掘

挖掘有價值的數據，採用的手段如分類、估計、預測、相關性分組或關聯規則、聚類。　　

六、模型預測

該階段的目的是進行將來目標預測，經過創建預測模型、機器學習、建模仿真等手段進行計算。　

七、結果呈現

最終的處理結果會經過雲計算、標籤雲、關係圖等進行展現。

處理大數據的框架愈來愈多，使得處理大數據也愈來愈方便，但更多的是根據商業用途和業務場景進行劃分，選取最合適的技術最重要。

大數據離咱們遠嗎？

大數據好像生來就是大企業在玩兒的東西，雖然咱們每一個人可能都貢獻了一些數據，但咱們離大數據是否是很遠？答案是否。最典型的，淘寶的商品推薦功能。想必每一個人都有淘寶購物的經歷，在準備搜索某個寶貝的時候，淘寶客戶端會實時推送不一樣的商品，有時候用戶會發現推送的商品正是本身想要購買的。但用戶並無該商品的購買記錄。那淘寶是如何作到的呢？答案就是大數據+智能推薦。淘寶背後正是對千萬用戶的消費習慣進行分析挖掘，才能作到這樣的準確推薦。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。