大數據介紹

原文地址:http://bbs.pinggu.org/bigdata/前端

大數據概念

"大數據"是一個體量特別大,數據類別特別大的數據集,而且這樣的數據集沒法用傳統數據庫工具對其內容進行抓取、管理和處理。算法

   "大數據"首先是指數據體量(volumes)?大,指代大型數據集,通常在10TB?規模左右,但在實際應用中,不少企業用戶把多個數據集放在一塊兒,已經造成了PB級的數據量;    數據庫

  其次是指數據類別(variety)大,數據來自多種數據源,數據種類和格式日漸豐富,已衝破了之前所限定的結構化數據範疇,囊括了半結構化和非結構化數據。  bootstrap

  接着是數據處理速度(Velocity)快,在數據量很是龐大的狀況下,也可以作到數據的實時處理。安全

  最後一個特色是指數據真實性(Veracity)高,隨着社交數據、企業內容、交易與應用數據等新數據源的興趣,傳統數據源的侷限被打破,企業愈發須要有效的信息之力以確保其真實性及安全性。網絡

  "大數據"是須要新處理模式才能具備更強的決策力、洞察發現力和流程優化能力的海量、高增加率和多樣化的信息資產。從數據的類別上看,"大數據"指的是沒法使用傳統流程或工具處理或分析的信息。它定義了那些超出正常處理範圍和大小、迫使用戶採用非傳統處理方法的數據集。架構

大數據的分析

從所周知,大數據已經不簡簡單單是數據大的事實了,而最重要的現實是對大數據進行分析,只有經過分析才能獲取不少智能的,深刻的,有價值的信息。那麼愈來愈多的應用涉及到大數據,而這些大數據的屬性,包括數量,速度,多樣性等等都是呈現了大數據不斷增加的複雜性,因此大數據的分析方法在大數據領域就顯得尤其重要,能夠說是決定最終信息是否有價值的決定性因素。基於如此的認識,大數據分析廣泛存在的方法理論有哪些呢?併發

大數據分析的五個基本方面:負載均衡

一、可視化分析(Analytic Visualizations)機器學習

大數據分析的使用者有大數據分析專家,同時還有普通用戶,可是他們兩者對於大數據分析最基本的要求就是可視化分析,由於可視化分析可以直觀的呈現大數據特色,同時可以很是容易被讀者所接受,就如同看圖說話同樣簡單明瞭。

二、數據挖掘算法(Data Mining Algorithms)

大數據分析的理論核心就是數據挖掘算法,各類數據挖掘的算法基於不一樣的數據類型和格式才能更加科學的呈現出數據自己具有的特色,也正是由於這些被全世界統計學家所公認的各類統計方法(能夠稱之爲真理)才能深刻數據內部,挖掘出公認的價值。另一個方面也是由於有這些數據挖掘的算法才能更快速的處理大數據,若是一個算法得花上好幾年才能得出結論,那大數據的價值也就無從提及了。

三、預測性分析能力(Predictive Analytic Capabilities

大數據分析最終要的應用領域之一就是預測性分析,從大數據中挖掘出特色,經過科學的創建模型,以後即可以經過模型帶入新的數據,從而預測將來的數據。

四、語義引擎(Semantic Engines)

大數據分析普遍應用於網絡數據挖掘,可從用戶的搜索關鍵詞、標籤關鍵詞、或其餘輸入語義,分析,判斷用戶需求,從而實現更好的用戶體驗和廣告匹配。

五、數據質量和數據管理(Data Quality and Master Data Management)

大數據分析離不開數據質量和數據管理,高質量的數據和有效的數據管理,不管是在學術研究仍是在商業應用領域,都可以保證分析結果的真實和有價值。 大數據分析的基礎就是以上五個方面,固然更加深刻大數據分析的話,還有不少不少更加有特色的、更加深刻的、更加專業的大數據分析方法。

大數據技術

數據採集:ETL工具負責將分佈的、異構數據源中的數據如關係數據、平面數據文件等抽取到臨時中間層後進行清洗、轉換、集成,最後加載到數據倉庫或數據集市中,成爲聯機分析處理、數據挖掘的基礎。
數據存取:關係數據庫、NOSQL、SQL等。
基礎架構:雲存儲、分佈式文件存儲等。
數據處理:天然語言處理(NLP,NaturalLanguageProcessing)是研究人與計算機交互的語言問題的一門學科。處理天然語言的關鍵是要讓計算機"理解"天然語言,因此天然語言處理又叫作天然語言理解(NLU,NaturalLanguage Understanding),也稱爲計算語言學(Computational Linguistics。一方面它是語言信息處理的一個分支,另外一方面它是人工智能(AI, Artificial Intelligence)的核心課題之一。
統計分析:假設檢驗、顯著性檢驗、差別分析、相關分析、T檢驗、方差分析、卡方分析、偏相關分析、距離分析、迴歸分析、簡單迴歸分析、多元迴歸分析、逐步迴歸、迴歸預測與殘差分析、嶺迴歸、logistic迴歸分析、曲線估計、因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應分析、多元對應分析(最優尺度分析)、bootstrap技術等等。
數據挖掘:分類 (Classification)、估計(Estimation)、預測(Prediction)、相關性分組或關聯規則(Affinity grouping or association rules)、聚類(Clustering)、描述和可視化、Description and Visualization)、複雜數據類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)
模型預測:預測模型、機器學習、建模仿真。
結果呈現:雲計算、標籤雲、關係圖等。

大數據特色

要理解大數據這一律念,首先要從"大"入手,"大"是指數據規模,大數據通常指在10TB(1TB=1024GB)規模以上的數據量。大數據同過去的海量數據有所區別,其基本特徵能夠用4個V來總結(Vol-ume、Variety、Value和Veloc-ity),即體量大、多樣性、價值密度低、速度快。
  第一,數據體量巨大。從TB級別,躍升到PB級別。
  第二,數據類型繁多,如前文提到的網絡日誌、視頻、圖片、地理位置信息,等等。
  第三,價值密度低。以視頻爲例,連續不間斷監控過程當中,可能有用的數據僅僅有一兩秒。
  第四,處理速度快。1秒定律。最後這一點也是和傳統的數據挖掘技術有着本質的不一樣。物聯網、雲計算、移動互聯網、車聯網、手機、平板電腦、PC以及遍及地球各個角落的各類各樣的傳感器,無一不是數據來源或者承載的方式。
  大數據技術是指從各類各樣類型的巨量數據中,快速得到有價值信息的技術。解決大數據問題的核心是大數據技術。目前所說的"大數據"不只指數據自己的規模,也包括採集數據的工具、平臺和數據分析系統。大數據研發目的是發展大數據技術並將其應用到相關領域,經過解決巨量數據處理問題促進其突破性發展。所以,大數據時代帶來的挑戰不只體如今如何處理巨量數據從中獲取有價值的信息,也體如今如何增強大數據技術研發,搶佔時代發展的前沿。

當下我國大數據研發建設應在如下四個方面着力

一是創建一套運行機制。大數據建設是一項有序的、動態的、可持續發展的系統工程,必須創建良好的運行機制,以促進建設過程當中各個環節的正規有序,實現統合,搞好頂層設計。
二是規範一套建設標準。沒有標準就沒有系統。應創建面向不一樣主題、覆蓋各個領域、不斷動態更新的大數據建設標準,爲實現各級各種信息系統的網絡互連、信息互通、資源共享奠基基礎。
三是搭建一個共享平臺。數據只有不斷流動和充分共享,纔有生命力。應在各專用數據庫建設的基礎上,經過數據集成,實現各級各種指揮信息系統的數據交換和數據共享。
四是培養一支專業隊伍。大數據建設的每一個環節都須要依靠專業人員完成,所以,必須培養和造就一支懂指揮、懂技術、懂管理的大數據建設專業隊伍。

大數據處理

周濤:大數據處理數據時代理念的三大轉變:要全體不要抽樣,要效率不要絕對精確,要相關不要因果。

具體的大數據處理方法確實有不少,可是根據筆者長時間的實踐,總結了一個廣泛適用的大數據處理流程,而且這個流程應該可以對你們理順大數據的處理有所幫助。整個處理流程能夠歸納爲四步,分別是採集、導入和預處理、統計和分析,最後是數據挖掘。

大數據處理之一:採集

  大數據的採集是指利用多個數據庫來接收發自客戶端(Web、App或者傳感器形式等)的數據,而且用戶能夠經過這些數據庫來進行簡單的查詢和處理工做。好比,電商會使用傳統的關係型數據庫MySQL和Oracle等來存儲每一筆事務數據,除此以外,Redis和MongoDB這樣的NoSQL數據庫也經常使用於數據的採集。
  在大數據的採集過程當中,其主要特色和挑戰是併發數高,由於同時有可能會有成千上萬的用戶來進行訪問和操做,好比火車票售票網站和淘寶,它們併發的訪問量在峯值時達到上百萬,因此須要在採集端部署大量數據庫才能支撐。而且如何在這些數據庫之間進行負載均衡和分片的確是須要深刻的思考和設計。

大數據處理之二:導入/預處理

  雖然採集端自己會有不少數據庫,可是若是要對這些海量數據進行有效的分析,仍是應該將這些來自前端的數據導入到一個集中的大型分佈式數據庫,或者分佈式存儲集羣,而且能夠在導入基礎上作一些簡單的清洗和預處理工做。也有一些用戶會在導入時使用來自Twitter的Storm來對數據進行流式計算,來知足部分業務的實時計算需求。
  導入與預處理過程的特色和挑戰主要是導入的數據量大,每秒鐘的導入量常常會達到百兆,甚至千兆級別。

大數據處理之三:統計/分析

  統計與分析主要利用分佈式數據庫,或者分佈式計算集羣來對存儲於其內的海量數據進行普通的分析和分類彙總等,以知足大多數常見的分析需求,在這方面,一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata,以及基於MySQL的列式存儲Infobright等,而一些批處理,或者基於半結構化數據的需求可使用Hadoop。
  統計與分析這部分的主要特色和挑戰是分析涉及的數據量大,其對系統資源,特別是I/O會有極大的佔用。

大數據處理之四:挖掘

  與前面統計和分析過程不一樣的是,數據挖掘通常沒有什麼預先設定好的主題,主要是在現有數據上面進行基於各類算法的計算,從而起到預測(Predict)的效果,從而實現一些高級別數據分析的需求。比較典型算法有用於聚類的Kmeans、用於統計學習的SVM和用於分類的NaiveBayes,主要使用的工具備Hadoop的Mahout等。該過程的特色和挑戰主要是用於挖掘的算法很複雜,而且計算涉及的數據量和計算量都很大,經常使用數據挖掘算法都以單線程爲主。  整個大數據處理的廣泛流程至少應該知足這四個方面的步驟,才能算得上是一個比較完整的大數據處理。

相關文章
相關標籤/搜索