1.大數據概述

大數據具備四個特徵:

數據量大(Volume)數據庫

大數據的起始數據單位至少是拍字節(約1000個太字節)、艾字節(約1000個拍字節)或澤字節(約1000個艾字節)。架構

類型繁多(Variety)框架

大數據的數據格式是多樣化的,如文字、圖片、視頻、音頻、地理位置信息等,數據也能夠有不用的來源,如傳感器,互聯網等。分佈式

價值密度低(Value)工具

隨着物聯網的普遍應用,信息感知無處不在,信息海量,但價值密度較低,例如監控視頻,在接二連三的監控中,有用的數據可能僅有一二秒。如何經過強大的計算機更迅速的完成數據的價值「提純」成爲目前大數據背景下亟待解決的問題。oop

速度快,時效高(Velocity)學習

速度快這一點是大數據區分與傳統數據挖掘最顯著的特徵。到目前2020年,全球數據使用量達到了大約35澤字節(35ZB)。另外數據還具備必定的時效性,是不停變化的,數據量能夠隨時間逐漸增大,也可在空間上不斷移動變化的數據。若是採集到的數據不通過流轉,最終會過時做廢。(如數據處理軟件達不到」秒」處理,所帶來的商業價值就會大打折扣)。大數據

大數據身邊的應用案例:

大數據在醫療領域的應用優化

醫療行業很早就遇到了海量數據和非結構數據的挑戰,而近年來不少國家都在積極推動醫療信息化發展,這使得不少醫療機構有資金來作大數據分析。雲計算

大數據在零售和電商行業的應用

零售行業能夠利用大數據技術進行精準營銷。例如,商家能夠更具客戶消費喜愛和趨勢,進行商品的精準營銷,下降營銷成本。在將來,電商還能夠利用大數據預測流行趨勢、消費趨勢、地域消費特色、客戶消費習慣、各類消費行爲的相關熱度、消費熱點、影響消費的重要因素等。

大數據在金融行業的應用

大數據在金融行業應用範圍較廣。大數據在金融行業的應用能夠總結爲如下5個方面:精準營銷,風險管控,決策支持,效率替身,產品設計。

大數據在交通出行領域的應用

目前,交通領域的大數據應用主要體如今兩個方面,一方面能夠利用大數據來實現即時信號燈調度,提升已有線路運行能力。另外一方面經過大數據瞭解車輛密度,合理進行道路規劃。

大數據在教育領域的應用

大數據教育領域的應用主要集中在自適應個性化學習、英語語音測評、教育機器人、只能陪練、分級閱讀等幾個方面。

大數據在製造業的應用

在將來,利用工業大數據將提高製造業水平,主要集中在產品故障診斷與預測、分析工藝流程、改進生產工藝、優化生產過程能耗、工業供應鏈分析與優化、生產計劃與排程等方面。

大數據的處理流程:

數據收集

大數據的採集不是抽樣調查,它強調數據儘量完整和全面,儘可能保證每個數據精確有用。對於Web數據,多采用爬蟲方式進行收集,這須要對爬蟲軟件進行時間設置以保障收集到的數據具備時效性。(數據的採集技術有ETL工具,如Sqoop等、日誌採集工具(如Flume,Kafka等))。

數據預處理與存儲

大數據收集來的數據會有不少重複數據、無用數據、噪聲數據,會有數據值缺失和數據衝突的狀況等,因此須要對數據進行預處理和清洗。(預處理環節主要包括數據清理、數據集成、數據歸約、數據轉換處理等內容)

數據處理與分析

數據處理,數據的分佈式處理技術與存儲形式和業務數據類型相關。大數據處理的主要模型有MapReduce分佈式計算框架、Spark分佈式內存計算系統、Storm分佈式流計算系統等。

數據分析,大數據分析技術包括已有數據的分佈式統計分析技術和未知數據的分佈式挖掘、深度學習技術三種。分佈式統計分析可由數據處理完成,分佈式挖掘和深度學習則在大數據分析階段完成。

數據可視化與應用環節

數據可視化是指將大數據分析與預測結果以計算機圖形或圖像的直觀方式顯示給用戶的過程,並可與用戶進行交互式處理。因此,大數據可視化是影響大數據可用性和易於理解性質量的關鍵因素。

大數據、雲計算、人工智能的關係:

雲計算與大數據

大數據必然沒法用單臺的計算機進行處理,必須採用分佈式架構,它的特點在於對海量數據進行分佈式數據挖掘。因此它必須依託雲計算的分佈式處理、分佈式數據庫、雲存儲和虛擬化技術。雲計算的應用須要大數據,而云計算則爲大數據的處理和數據挖掘提供了最佳的技術解決方案。總體來看是相輔相成,不斷髮展的關係。

大數據與人工智能的關係

若是把人工智能比做一個無限潛力的嬰兒,某一領域專業的海量的深度的數據就是餵養這個嬰兒的奶粉。奶粉的數量決定了嬰兒是否能長大,而奶粉的質量則決定嬰兒後續的智力發育水平。

可是不是全部問題只要有,就可以作到這麼好,這要受限於4個條件限制:首先是須要有大量的數據,第二是徹底信息,第三是肯定性,第四是但領域和單任務。只有這4個限定條件知足後纔有可能作到達到或者超過人類水平的人工智能。

大數據分類存儲的方式:

存儲主要利用分佈式文件系統、數據倉庫、關係數據庫、NoSQL數據庫、雲數據庫等,實現對結構化、半結構化和非結構化海量數據的存儲和管理。

大數據如何進行預處理:

數據清理

對數據的不一致檢測、噪聲數據的識別、數據過濾與修正等。

數據集成

將多個數據源的數據進行集成,從而造成集中、統一的數據庫、數據立方體等。

數據歸約

在不損害分析結果準確性的前提降低低數據集規模,使之簡化,包括維歸約、數量規約、數據抽樣等技術。

數據轉換處理

包括基於規則或元數據的轉換、基於模型與學習的轉換等技術,可用過轉換實現數據統一,有利於提升大數據的一致性和可用性。

 

 

————摘自北京郵電大學出版社的《大數據導論初版》

相關文章
相關標籤/搜索