大數據時代數據處理技術及應用 算法
現現在,人們所處的社會是信息化社會,人們再也不認爲數據是靜止而陳舊的。之前,一旦完成了數據收集的目的後,數據便會沒有任何用處變爲廢棄物。例如在火車到達終點站後,火車票的數據就沒有用處了。而現現在數據已經成爲了一種商業資本,一項重要的經濟投入,能夠創造更多的經濟利益。現代社會的一切事物幾乎都是由互聯網爲基礎而衍生的無數行業與機遇,那麼在這個極具機遇與挑戰的信息時代咱們天天都在接觸、使用、傳播、產生數之不盡的數據,而這些存儲在雲端服務器的海量0、1編碼便逐步彙集成爲了大數據。數據在這個時代已經成爲一種資源,一種籌碼,由於它不爲人們所感知,但卻與咱們每個互聯網用戶如影隨行,日夜相伴。數據庫
如今咱們每一個人口袋裏都有一個移動智能終端,它時時刻刻都在不停地記錄、傳輸、接收着大量的信息,而網絡將無數智能終端聯繫在一塊兒,共同構成了一個龐大的關係網絡,紛繁複雜。而云端服務器將這些存儲下來,在一系列高端算法的分析與概括即可以獲得必定質量的事件預測。這僅僅是一個開始,大數據時代對咱們的生活,以及整個世界交流的方式提出了挑戰。最使人震驚的是,社會須要放棄它對於因果關係的渴求,而僅僅須要關注相關關係。也就是咱們只須要知道是什麼,而不須要知道爲何。編程
1、 大數據的特色服務器
大數據5V特徵:網絡
1.Volume(大致量):便可從數百TB到數十數百PB、甚至EB的規模。過去的時代是小數據時代,只能利用隨機抽樣的方法對某一項數據用局部替代總體,並渴望從最少的數據得到最多的信息,可是這樣的方法是有很大侷限性的,例如人口普查,只能挨個的去記錄和整理,那麼當數據收集齊全時,數據自己就已通過時了,那是徒勞的,低效的。而在當今的大數據時代,數據再也不深藏於各處,而是即時上傳、記錄、分析、存儲。這不只使得數據被最大化的利用,而且使得全部的數據都能「發聲」,告訴人們想獲得的信息,並從中得到相應的利益。分佈式
二、Variety(多樣性):即大數據包括各類格式和形態的數據。獲得數據的方法數之不盡,曾今咱們對於數據的認識是片面的,咱們單純的認爲數據只是指數值類數據,但在互聯網時代,一切事物都是能夠被「量化」的,你說的話,打印的文字,看的書籍,瀏覽的網頁等都被稱爲數據,由於在互聯網時代數據是使用約定俗成的關鍵詞,對客觀事物的數量、屬性、位置及其相互關係進行抽象表示,以適合在這個領域中用人工或天然的方式進行保存、傳遞和處理。包括的範圍極爲普遍,幾乎能夠容納一切事物。事物的種類繁雜與多樣化便使得大數據時代具備多樣性,舉個例子:沃爾瑪超市員工將啤酒和尿布擺放在一塊兒,而兩者的聯繫就是經過大數據分析所發現的。因而可知任何兩種或多種徹底不相干的事物在大數據的分析下均可以擁有直接或間接地聯繫。正如六度空間理論。難以證明,但卻客觀存在。函數
三、Velocity(時效性):即不少大數據須要在必定的時間限度下獲得及時處理。在前面的大致量中也已經闡述了在現代信息爆炸的時代,數據量與秒俱增,信息量大的十分可怕,海量數據「噴涌」而出,甚是驚人,而數據的價值也如新聞通常,一旦超過了「保質期」,再多的數據也只不過是昨日黃花,一文不值。生活中的許許多多的數據都具備時效性,例如人口普查的數據、飛機票等相關數據若是不可以實時更新,便會給人們的生活帶來許多不便。從而大數據的時效性相當重要。工具
四、Veracity(準確性):即處理的結果要保證必定的準確性。數據收集時不可避免的會收集到許許多多的虛假信息,而這些不真實的信息必然會給後期的數據記錄和分析帶來偏差。那麼在大數據時代對於數據的真實性與準確性也有必定的要求。post
五、Value(大價值):即大數據包含不少深度的價值,大數據分析挖掘和利用將帶來巨大的商業價值。就拿咱們最經常使用的購物APP—「淘寶」來講吧,淘寶是阿里旗下的網購應用平臺,天天有數以億計的人們使用它,而在淘寶的雲端服務器,天天都在處理着無數的數據,賣家的信息、買家的信息、商品的相關信息、物流信息,這些數據聚集起來便構成了一個大數據,阿里便經過買家的瀏覽商品的記錄和下單的記錄爲買家接連不斷的推薦相關商品,以後你的淘寶主界面便全都是你所關注的同類型商品(固然對於不常使用的人來講這是一件使人反感的事情,例如我本身)並且每當你打開淘寶,便會向你推薦一堆你以前買過或瀏覽過的商品,這對於購物愛好者們天然是一件開心而且享受的事情,對於賣家也是如此。這個流程即是大數據的分析所帶來的巨大商業利益。記錄「足跡」,分析喜愛,推薦商品,用戶下單,阿里即可輕鬆獲取鉅額利益。因而可知大數據的商業價值無處不在。學習
2、大數據處理算法
在給定的資源約束下,以大數據爲輸入,再給定時間約束內可生成知足給訂約束結果的算法稱爲大數據算法。大數據處理算法能夠不是一個精確的算法,由於在海量的數據面前,人們逐漸開始以損失必定的精確度來換取大數據裏蘊藏的豐富資源,由於大數據中的精確性再也不是人們最關心的事物了,由於在大量的數據面前,精確是幾乎不可能作到的,那麼大數據所具有的性質便由精確性轉變爲了混雜性,全部數據都集中在一塊,並且種類繁多,甚是驚人。而對於大數據的處理也有着各類各樣的困難,而針對不一樣種類的困難,算法設計師們也設計出了相應的算法來解決對應的困難。具體的困難分爲以下四種:
1) 訪問所有數據的時間過長。
解決方法:那麼咱們則能夠應用讀取部分數據的方法來實現對於龐大數據的快速處理的功能。而對應的算法則是---時間亞性算法。該算法的實現過程以下
輸入:m個頂點的平面圖,任意兩點之間的距離存儲在矩陣D中,即點i到點j的距離爲Dij
-輸入大小是n=m2
-最大的Dij是圖的直徑
-點之間的距離對稱且知足三角不等式
輸出:該圖的直徑和距離最大的Dij
要求: 運行時間爲o(n)
2) 數據難以放入內存計算
解決方法一:將數據存儲在磁盤上----外存算法
解決方法二:僅基於少許數據進行計算----空間亞線性算法
過程以下:
輸入:一組數據,其大小未知
輸出:這組數據的k個均勻抽樣
要求:
--僅掃描數據一次
--空間複雜性爲O(k)
--掃描到數據的前n個數字時(n>k),保存當前已掃描數據的k個均勻抽樣
3) 單個計算機難以保存所有數據,計算須要總體數據
解決方案:並行處理----------並行算法
介紹以下:
MapReduce 是由Google公司的Jeffrey Dean 和 Sanjay Ghemawat 開發的分佈式編程模型。
•MapReduce實現了兩個主要功能
–Map把一個函數應用於集合中的全部成員,而後返回一個基於這個處理的結果集。
–Reduce是把從兩個或更多個Map中,經過多個線程,進程或者獨立系統並行執行處理的結果集進行分類和概括。
–Map() 和 Reduce() 兩個函數可能會並行運行,即便不是在同一的系統的同一時刻。
*MapReduce模型
用戶定義的Map和Reduce函數(無狀態)
•輸入: 一個key/value對元組的列表 (k1/v1)
–用戶的map函數被應用於每一個key/value對
–產生中間key/value對列表
•輸出: 一個key/value對元組的列表 (k2/v2)
–中間值基於key值分組
–用戶的reduce函數被應用於每一個組
•每一個元組都是獨立的
–能夠用分佈式大規模並行的方式進行處理
–總輸入能遠大於工人的內存
4) 計算能力不足或知識不足
解決方法:衆包算法
衆包:
•協調一個羣體(互聯網上的一大羣人)作 「微工做」 (每人作一點貢獻) 來解決軟件或者單我的難以解決的問題
•經過一系列的機制和方法來指導和協調羣體的行爲,從而達到目的
例如:Wikipedia,amazon。
算法多種多樣,但對於大數據算法而言並無高低之分,就如同廚房裏的油鹽醬醋通常,並無地位高低,它們互相發揮着自身的特色,使得廚房可以爲咱們呈上一道又一道的美食,算法亦如此,各有所長各有所短,取長補短,相互配合才能讓大數據最大化的爲人們所利用,促使互聯網時代更加蓬勃發展,生機盎然。
3、 大數據的商業應用
現在大數據的商業應用主要集中在行爲標籤、智能推薦、管理系統、數據整理與展現以及廣告檢測智能系統等,國內外大量企業都已經開始或準備開始利用大數據創造新的利潤增加點。由此將大數據應用發展到社會的各行各業,小到我的生活,大到企業國家的發展,大數據也逐漸變成了一種極爲寶貴的商業資源。
大數據的商業應用分爲八類,城市生活、金融行業、零售行業、農牧業、房地產行業、廣告業、醫療行業、互聯網技術。其中最引人關注的即是金融行業。大數據在金融行業應用範圍較廣,典型的案例有花旗銀行利用IBM沃森電腦爲財富管理客戶推薦產品,美國銀行利用客戶點擊數據集爲客戶提供特點服務。中國金融行業大數據應用開展的較早,但都是以解決大數據效率問題爲主,不少金融行業創建了大數據平臺,對金融行業的交易數據進行採集和處理。
金融行業過去的大數據應用以分析自身財務數據爲主,以提供動態財務報表爲主,以風險管理爲主。在大數據價值變現方面,開展的不夠深刻,這同金融行業每一年上萬億的淨利潤相比是不匹配的。如今已經有一些銀行和證券開始和移動互聯網公司合做,一塊兒進行大數據價值變現,其中招商銀行、平安集團、興業銀行、國信證券、海通證券和TalkingData在移動大數據精準營銷、獲客、用戶體驗等方面進行了很多的嘗試,大數據價值變現效果還不錯,大數據正在幫助金融行業進行價值變現。大數據在金融行業的應用能夠總結爲如下五個方面:
(1)精準營銷:依據客戶消費習慣、地理位置、消費時間進行推薦
(2)風險管控:依據客戶消費和現金流提供信用評級或融資支持,利用客戶社交行爲記錄實施信用卡反欺詐
(3)決策支持:利用抉策樹技術進抵押貸款管理,利用數據分析報告實施產業信貸風險控制
(4)效率提高:利用金融行業全局數據瞭解業務運營薄弱點,利用大數據技術加快內部數據處理速度
(5)產品設計:利用大數據計算技術爲財富客戶推薦產品,利用客戶行爲數據設計知足客戶需求的金融產品
大數據已然深刻到咱們生活的方方面面,互聯網時代天天也在發生着翻天覆地的變化,一次又一次的互聯網產業的變革都將會主導着整個社會的變革。大數據向咱們展現了一個又一個神奇而美好的預測與結果,可是數據的根源依然是人類自己,若是本身可以很好的把握住本身的生活與行爲,在加以大數據的分析的參考答案,咱們將不斷改進和創新,向全世界釋放無限的價值,促令人類世界更加美好與便捷。人類自身的命運應由咱們本身來掌控,而非麻木的爲冰冷機器所主宰。20世紀末,咱們迎來了PC互聯網時代,5年前咱們迎來了移動互聯網時代,幾年後全新的互聯網時代又將向咱們走來,將來是科技的,將來是神祕的,每一個人都憧憬着更加美好的將來,而當下的人們正在讓本身的將來逐漸流失與手心,信息社會是繁華的、廉價的、共享的、同時也是危險的。但凡人們沒法控制人性的陰暗面,那麼互聯網與大數據將會成爲一個任人操縱的掠奪工具,正如一年前的電信詐騙案—「徐玉玉案」,犯罪嫌疑人經過非法手段獲取了她的全部身份信息以及她的家人的詳細信息,以後便騙取了她的大學報名費,致使了受害人傷心欲絕,最終不幸離開人世。社會是多元的,數據是無罪的,可是當咱們沒法正確的使用這一切時,危險也將愈來愈近。而網絡世界的無盡繁華也一樣使得衆多青少年喪失自我,例子更是舉不甚舉。大數據與互聯網讓咱們明白了信息時代的美麗,也一樣讓咱們感到了危機,由於時代飛速發展,思想和知識如果跟不上時代的步伐,往後的生活一定是舉步維艱,假若有心成爲人上人,那麼就應當務實基礎,腳踏實地的學習與作人,在正確的時間作正確的事,將來就在眼前,讓咱們一塊兒擁抱這個偉大的時代吧!
------------yuhaow【數據庫課程小論文】