大數據的大規模應用如今仍然處於起步階段,但卻已經帶給咱們這個時代巨大的改變與機遇。用狄更斯《生存記》中的一句話」 這是一個最好的時代, 也是一個最壞的時代」來描述今天大數據的發展示狀,再貼切不過了。算法
第三次信息化浪潮讓大數據正式的進入人們的視野。而今年來在存儲、計算、網絡方面的迅速發展,硬件設備的成本在下降,而性能卻反過來在大幅度提高,其發展速度已經大大超過了摩爾定律
,這爲大數據時代的到來提供了良好的技術支撐。安全
有人說是自媒體的推進了大數據時代的到來。其實否則,自媒體是讓這個時代可以聽到每個普通的民衆的聲音,讓那個由精英掌控社會主流文化的時代一去不復返,自媒體時代成就了網紅,而不是大數據。
而直到物聯網(IoT)的興起,各類傳感器、攝像頭等每時每刻都在產生數據,是咱們進入一個信息爆炸的時代,這些數據已經超出咱們人所能控制的範疇。網絡
數據量大(Volume):第一個特徵是數據量大,包括採集、存儲和計算的量都很是大。大數據的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T)。分佈式
類型繁多(Variety):第二個特徵是種類和來源多樣化。包括結構化、半結構化和非結構化數據,具體表現爲網絡日誌、音頻、視頻、圖片、地理位置信息等等,多類型的數據對數據的處理能力提出了更高的要求。工具
價值密度低(Value):第三個特徵是數據價值密度相對較低,或者說是浪裏淘沙卻又彌足珍貴。隨着互聯網以及物聯網的普遍應用,信息感知無處不在,信息海量,但價值密度較低,如何結合業務邏輯並經過強大的機器算法來挖掘數據價值,是大數據時代最須要解決的問題。性能
速度快時效高(Velocity):第四個特徵數據增加速度快,處理速度也快,時效性要求高。好比搜索引擎要求幾分鐘前的新聞可以被用戶查詢到,個性化推薦算法儘量要求實時完成推薦。這是大數據區別於傳統數據挖掘的顯著特徵。大數據
數據是在線的(Online):數據是永遠在線的,是隨時能調用和計算的,這是大數據區別於傳統數據最大的特徵。如今咱們所談到的大數據不單單是大,更重要的是數據變的在線了,這是互聯網高速發展背景下的特色。好比,對於打車工具,客戶的數據和出租司機數據都是實時在線的,這樣的數據纔有意義。若是是放在磁盤中並且是離線的,這些數據遠遠不如在線的商業價值大。優化
1.全樣而非抽樣:
以往數據量龐大,沒法儲存和分析,統計學只能採用抽樣。目前大數據技術的發展,儲存、計算設備的成本不斷的下降。咱們有足夠的儲存空間,咱們的計算也不單單侷限於一臺計算設備之上。咱們徹底可以使用分佈式系統進行儲存,使用成千上萬個CPU進行計算。搜索引擎
2.效率而非精確:
以往作抽樣分析,人們必須不斷地追求算法的精度,由於一旦咱們將抽樣計算的結果,運用到全樣之後,偏差將會被放大。而使使用大數據技術,因爲直接拿全樣作分析,所以不用刻意追求精確性。而不少數據都具備時效性,所以,更關注效率。spa
3.相關而非因果:
大數據時代,咱們更加關注數據之間的聯繫,而這種相關性就可以使數據產生價值。好比:推薦系統。
轉載自BigData4All