從BAT大數據工程師那裏總結的大數據學習方法

時間 2019-12-09

標籤 bat 數據工程師那裏總結學習方法简体版

原文原文鏈接

認識大數據java

什麼是大數據？可能有人會說寫字樓的全部人的資料信息就是個大數據。NO！這裏的數據只能說比較大，但卻不能稱之爲大數據。百度百科上給出了很明確的解釋「大數據（big data），指沒法在必定時間範圍內用常規軟件工具進行捕捉、管理和處理的數據集合，是須要新處理模式才能具備更強的決策力、洞察發現力和流程優化能力的海量、高增加率和多樣化的信息資產。」python

在這裏仍是要推薦下我本身建的大數據學習交流羣:529867072，羣裏都是學大數據開發的，若是你正在學習大數據，小編歡迎你加入,你們都是軟件開發黨，不按期分享乾貨（只有大數據軟件開發相關的），包括我本身整理的一份最新的大數據進階資料和高級開發教程，歡迎進階中和進想深刻大數據的小夥伴加入。數據庫

大數據有五個特色（IBM提出）：Volume（大量）、Velocity（高速）、Variety（多樣）、Value（低價值密度）、Veracity（真實性）。其中Volume就是廣泛認爲的數據足夠大，所以數據大並不能說就是大數據，話句話說數據大隻是大數據其中的一個特色。編程

大數據技術的戰略意義不在於掌握龐大的數據信息，而在於對這些含有意義的數據進行專業化處理。換而言之，若是把大數據比做一種產業，那麼這種產業實現盈利的關鍵，在於提升對數據的「加工能力」，經過「加工」實現數據的「增值」。架構

如今咱們「從相認到相識」，清楚的認識什麼是大數據，若是區分大數據和數據大，是咱們學習大數據走的第一步。框架

怎麼開始學分佈式

擁有了「第一磚」後就是你即將選擇師門的時候了，敲開山門的「第二磚」則是學習大數據的基礎，就如同在門派中修煉內功，有助你行走江湖，話很少說咱們來看看會涉及到哪些基礎吧！工具

一、 javaSE，EE(SSM)oop

90%的大數據框架都是java寫的。學習

如：MongoDB--最受歡迎的，跨平臺的，面向文檔的數據庫。 Hadoop--用Java編寫的開源軟件框架，用於分佈式存儲，並對很是大的數據集進行分佈式處理。

Spark --Apache Software Foundation中最活躍的項目，是一個開源集羣計算框架。

Hbase--開放源代碼，非關係型，分佈式數據庫，採用Google的BigTable建模，用Java編寫，並在HDFS上運行。

二、就是大數據裏面的基礎和工具