「大數據」概念解析

介紹

本文做爲「存儲基礎知識」系列文章之一,將介紹大數據的概念和組成部分。算法

 

更多信息

 

大數據是一個新提出的且在不斷演化的概念,是指數據量超過了常規軟件工具在可接受的時間內的抓取、存儲、管理和處理能力。它即包括結構化數據,也包括非結構化數據。其數據的來源多種多樣,能夠來自商務應用處理、網頁、視頻、圖像和社交媒體等。這些數據集一般須要實時地抓取和更新,以用於分析、預測性建模和決策等用途。架構

 

從大數據中吸收價值存在很大的機遇。大數據的生態系統(以下圖所示)由如下元素組成:工具

 

一、從多個位置收集數據,並從收集的數據中生成數據(元數據)的設備。性能

二、數據收集器,收集來自設備和用戶的數據。大數據

三、數據聚合工具,從收集的數據中吸收有意義的信息。設計

四、數據用戶和買家,是指數據價值鏈中從他人收集或聚合的數據中收益的人羣。視頻

大數據的數據量、多樣性、變化範圍和複雜性超出了傳統的IT設備和數據處理工具及方法的處理能力。對大數據進行實時分析須要新的方法、架構和工具,以提供高性能、大規模並行處理(MPP)數據平臺和對數據集的複雜分析。數學

數據科學是一門新興的學科,商業組織能夠利用這門學科從大數據中獲取商業價值。數據科學是多門學科(統計學、數學、數據可視化和計算機科學)的綜合。數據科學家的職責是設計各類高級算法對海量數據進行分析,以尋找新的價值點,爲更多的決策提供數據支持。數據可視化

不少領域和市場已經開始利用數據科學,從大數據的分析中獲益。其中包括醫學與科學研究、醫療醫護、公共管理、欺詐檢測、社交媒體、銀行、保險公司,以及其餘以數據爲中心的實體。基礎

 

應用於

 

幫助用戶瞭解大數據相關概念。

相關文章
相關標籤/搜索