程序員必備的「大數據入門」知識

時間 2020-02-22

標籤程序員必備數據入門知識欄目快樂工作简体版

原文原文鏈接

前言

只有光頭才能變強。
文本已收錄至個人GitHub倉庫，歡迎Star：https://github.com/ZhongFuCheng3y/3ygit

這篇文章主要是入門大數據，不涉及到高深的知識點和理論，我相信每一個人都看得懂。若是文章有錯誤的地方，不妨在評論區友善指出~github

1、什麼是大數據？

1.1 前置知識

我有的時候給外行人講解什麼是數據庫，就經常用Excel來舉例子(由於大多數人認識什麼是Excel)。在知乎有一個相似的題目《有excel了要數據庫幹啥？》，你們能夠去看看：數據庫

https://www.zhihu.com/question/26779236

其實很大一部分緣由就是：Excel能處理的數據量遠遠沒有數據庫得多。因爲咱們互聯網產生的數據是很是很是多的，因此咱們通常選擇數據庫來存儲數據。服務器

Excel只有104w行，多了加載不進去的 ---- @知乎 EamonLiao

衆所周知，咱們能存多少數據，是取決於咱們硬盤的大小的。好比，個人磁盤的大小就256GB(實際能存儲的大小是沒有256GB的，但這裏我就不展開了)，這意味着我這電腦只能存儲比256GB要小的數據。網絡

爲了可以更好地管理計算機的數據(訪問和查找變得更加簡單)，咱們就有了文件系統。框架

有了文件系統，已經能夠存儲數據了（很方便咱們去獲取），那爲何還會有數據庫呢？分佈式

文件系統存在如下缺點：數據共享性差，冗餘度大；數據獨立性差工具

數據庫系統實現總體結構化，這是數據庫系統與文件系統的本質區別。 -----《數據庫系統概論》oop

數據庫其實就是爲了針對特定類型數據處理而設計的系統，而文件系統則可看做通用型的數據存儲系統 @知乎吳穗榮性能

再回到大數據上，大數據就看名字咱們就知道：數據量很大。大到什麼程度呢？一塊普通的硬盤不能將一個文件存儲下來。

那我還想將這個文件存下來，怎麼辦呢？方案其實很簡單（說白了一個是垂直伸縮，一個是水平伸縮）：

多買幾塊硬盤，組成一個更大的「硬盤」，但願能容納更多的數據。
- RAID（獨立磁盤冗餘陣列）技術是將多塊普通磁盤組成一個陣列，共同對外提供服務。
- 好比，我如今以爲個人電腦16GB不夠用了，而個人主板有兩個內存槽，我多買一條16GB的內存條插入。那我就能夠說，個人電腦是32GB內存的。
把這個文件切開幾份，存到不一樣的硬盤中
- 好比我有1個TB的文件，我把它切分紅5份，每份200G，存到不一樣的服務器中。

若是是普通的用戶，確定選擇的是多買一塊硬盤，升級硬件啊。可是互聯網公司就不這樣幹，他們就選擇將一個文件切分紅幾份，放到不一樣的服務器中。爲何？

頂級的電腦硬件成本很大。(單臺計算機性能到必定的量上，再升級的成本就很是高)
單單一臺頂級的電腦可能也沒法處理掉這麼大量的數據

綜上所述，目前互聯網企業中都是選擇水平伸縮在一個系統中添加計算機來知足不斷增加的用戶量和支撐數據的平穩運行。

1.2 解決存儲問題

隨着數據量愈來愈大，在一臺機器上已經沒法存儲全部的數據了，那咱們會將這些數據分配到不一樣的機器來進行存儲，可是這就帶來一個問題：不方便管理和維護

因此，咱們就但願有一個系統能夠將這些分佈在不一樣操做服務器上的數據進行統一管理，這就有了分佈式文件系統

HDFS是分佈式文件系統的其中一種（目前用得最普遍的一種）

在使用HDFS的時候是很是簡單的：雖然HDFS是將文件存儲到不一樣的機器上，可是我去使用的時候是把這些文件當作是存儲在一臺機器的方式去使用（背後倒是多臺機器在執行）：

比如：我調用了一個RPC接口，我給他參數，他返回一個response給我。RPC接口作了什麼事其實我都不知道的（可能這個RPC接口又調了其餘的RPC接口）-----屏蔽掉實現細節，對用戶友好

1.3 解決計算問題

上面咱們使用HDFS做爲分佈式文件系統，已經能夠把數據存到不一樣的機器上(或者在不一樣的機器上讀取到數據)。能夠經過簡單命令行的方式對文件的簡單的存取。

如今呢，因爲數據量是很是大的，分散到不一樣的機器上。咱們想要對數據進行處理，咱們確定會有一段寫好的程序。處理的方式有兩種：

將數據傳遞給程序（機器A/B/C的數據傳給機器D程序來執行）
程序到數據所在的地方執行（將程序分別到機器A/B/C上執行）

選哪一個？咱們通常會採用」程序到數據所在的地方執行「，由於在大數據裏邊咱們的數據量很大，若是要把機器A/B/C的數據輸入到機器D上，這樣不划算。

數據量很大，經過網絡傳輸大數據到某一臺機器上作操做，不合適。
機器D只有一臺機器，處理的效率低下。

因此咱們會將程序分別放到機器A/B/C上處理，原本程序就很是小，放到別的機器上是輕輕鬆鬆的。還可使用機器A/B/C的資源作運算，這就很合適了。

「將數據傳遞給程序」這種就是所謂的「移動存儲到計算」，而「程序到數據所在的地方執行」這種就是所謂的「移動計算到存儲的觀念」。

在大數據的領域裏， 移動計算比移動數據更划算。MapReduce就是這樣乾的：

每臺機器執行任務的時候去檢查本身有沒有相應的程序，若是沒有則經過網絡下載程序包，而後經過反射來加載程序

2、大數據沒有想象中神祕

在剛聽到「大數據」這個詞的時候，可能有的人會想問：所謂大數據，那數據是從哪裏來的呢？

簡單來講能夠歸類爲三類：

日誌
數據庫
爬蟲

一、爬蟲應該很好理解，就是經過網絡爬蟲獲取外部數據，將這些數據本身存儲起來。不少的比價網站就是爬取各類電商網站的數據，而後比較各個網站的數據後獲得結果。自己它們網站自己是沒有這個數據的，這個數據是從別人那爬過來的。

二、數據庫原本就已經存儲了咱們的數據，而咱們要作的只是把數據庫的數據導入咱們的大數據平臺那兒，讓數據可以獲得更好的分析。

三、日誌這塊其實我更多想說的是打點（埋點）這塊。有的人會把這埋點和日誌的概念分開，只是我把它給合在一塊兒叫「日誌」。日誌有用戶行爲日誌（埋點），也有系統的運行產生的日誌。用戶行爲日誌這塊說白了就是：從你進去某個APP的一刻開啓。幾乎你全部的操做都會被記錄下來（點了某個tag、在某個tag停頓了多少秒）。猜你喜歡這類的系統就是根據你以往行爲來對進行推薦。

好了，如今咱們有不一樣的地方收集到數據，咱們要最終要作的就是把這個數據彙總到一塊兒來進行存儲和分析。

因而咱們就須要將日誌、數據庫、爬蟲這些不一樣數據源的數據導入到咱們的集羣中（這個集羣就是上面提到的，分佈式文件系統（HDFS），分佈式計算系統）。

因爲數據源的不一樣，因此會有多種的工具對數據進行導入。好比將日誌的數據收集咱們會有Flume，從數據庫同步咱們會有Sqoop。這也就是所謂的ETL（萃取「extract」、轉置「transform」、加載「load」）