在創建模型以前,在數據通過清洗用於探索分析以前,甚至在數據科學家工做開始以前,數據工程師就已經閃亮登場了。每個數據驅動的業務都須要一個適用於數據科學管道的框架,不然就是失敗的配置。html
大多數人懷揣着成爲數據科學家的夢想進入數據科學世界,但卻沒有意識到數據工程師是作什麼的,或者這個角色須要具有什麼能力。數據工程師是數據科學項目的重要組成部分,以致於在當今數據豐富的環境裏,產業對他們的需求正在指數式地上漲。python
目錄mysql
1. 什麼是數據工程師linux
2. 數據科學家和數據工程師的區別git
3. 數據工程中的不一樣角色程序員
4. 數據工程認證github
5. 核心數據工程技能及其學習資源redis
數據工程簡介算法
基本語言要求:Pythonsql
紮實的操做系統知識
豐富、深刻的數據庫知識-SQL和NoSQL
數據倉庫-Hadoop、MapReduce、Hive、Pig、Apache Spark、Kafka
基本的機器學習知識
6. 總結
數據工程師負責構建和維護數據科學項目的數據架構,他們必須確保服務器和應用程序之間的數據流是連續的。改進數據基礎應用程序,將新的數據管理技術和軟件集成到現有系統中,構建數據收集管道及其餘各類各樣的事情,都屬於數據工程師的職責。
數據工程中最受歡迎的技能之一是設計和構建數據倉庫的能力。數據倉庫是收集、存儲和檢索全部原始數據的地方,若是沒有數據倉庫,一個數據科學家作的全部任務就會變得要麼太昂貴,要麼太大,以致於沒法拓展。
ETL(提取、轉換和載入)是數據工程師構建數據管道所遵循的步驟,它其實是一份關於如何處理、轉換收集來的原始數據以備分析的藍圖。
數據工程師一般有着工程背景,與數據科學家不一樣的是,這個角色不須要太多的學術和科學知識。所以,對構建大規模結構和體系結構的開發人員或工程師很是適合這個角色。
瞭解這兩種角色之間的區別很是重要。從廣義上講,數據科學家綜合使用統計學、數學、機器學習和行業知識來構建模型。他/她必須使用組織支持的相同工具/語言和框架來編碼和構建這些模型。而數據工程師必須構建並維護適用於數據收集、處理和部署數據密集型應用的數據結構和體系架構。構建數據收集和存儲管道,將數據彙總給數據科學家,從而將模型投入生產-這些只是數據工程師必須執行的任務中的一部分。
要使任何大規模數據科學項目取得成功,數據科學家和數據工程師須要攜手合做,不然事情很快就會出錯。
要了解有關這兩個角色之間差別的更多信息,請訪問咱們的詳細信息圖。
詳細信息圖:
https://www.analyticsvidhya.com/blog/2015/10/job-comparison-data-scientist-data-engineer-statistician/
數據架構師:數據架構師爲數據管理系統收集、整合和維護全部的數據源奠基基礎,這個角色須要瞭解SQL、XML、Hive、Pig、Spark等工具。
數據庫管理員:顧名思義,擔任此角色的人須要對數據庫有着普遍的瞭解。職責包括確保數據庫對全部須要的用戶可用,適當地維護數據庫,而且保證在添加新特性時沒有任何中斷。
數據工程師:精通以上衆多技巧的人。正如咱們所見,數據工程師須要掌握數據庫工具、Python和Java語言、分佈式系統(如Hadoop)等知識,這個角色負責多種組合任務。
谷歌認證專家
這是目前最重要的數據工程認證之一。要得到此證書,你須要成功地經過一個具備挑戰性的、2個小時多的考試,題型是多項選擇題。你能夠在這個網頁上找到考試內容的大致範圍,此外,這個網頁提供給了一些實際操做谷歌雲技術的實踐指南。請必定要看一下!
谷歌認證專家:
https://cloud.google.com/certification/data-engineer
IBM認證數據工程師
要得到證書,你須要經過這個考試。考試包含54個問題,你必須正確回答44個。我建議在考試前,先了解IBM但願你瞭解的內容。「考試」連接中還提供了學習資料的進一步連接,你能夠參考這些資料進行準備。
IBM認證數據工程師:
https://www.ibm.com/certify/cert?id=50001501
考試:
https://www.ibm.com/certify/exam?id=C2090-101
Cloudera的CCP數據工程師
這是另外一個全球公認的認證,對新手來講是一個至關具備挑戰性的認證。你的概念須要更新和深刻,你應該有一些使用數據工程工具的實踐經驗,如Hadoop,Oozie,AWS Sandbox等。可是,若是你經過此次考試,對於你得到開啓數據工程領域工做來講,會是一個充滿但願的開始!
Cloudera曾提到,若是你參加他們的Apache Spark和Hadoop培訓課程,這將有助於你經過考試,緣由是考試主要基於這兩個工具。
Cloudera的CCP數據工程師:
https://www.cloudera.com/more/training/certification/ccp-data-engineer.html
Apache Spark和Hadoop培訓課程:
https://www.cloudera.com/more/training/courses/developer-training-for-spark-and-hadoop.html
數據工程簡介
基本語言要求:Python
紮實的操做系統知識
豐富、深刻的數據庫知識-SQL和NoSQL
數據倉庫-Hadoop、MapReduce、Hive、Pig、Apache Spark、Kafka
基本的機器學習知識
在深刻了解角色之間的不一樣方面以前,首先得了解數據工程的實質是什麼。數據工程天天執行的不一樣工做是什麼?頂尖技術公司想要怎樣的數據工程師?你是應該瞭解可見的全部一切,仍是僅僅瞭解與某一特定角色相關的東西?個人目的是提供如下參考資料,以助你找到這些問題或者其他更多問題的答案。
《數據工程入門指南》(第1部分):這是一篇很是受歡迎的、有關數據工程的文章,出自愛彼迎(Airbnb)的一位數據科學家之手。做者首先解釋了爲何數據工程是全部機器學習項目中如此關鍵的一方面,而後深刻探討了本主題的每一個部分。我認爲這是全部想要成爲數據工程師、數據科學家的新手們必讀的一篇文章。
《數據工程入門指南》(第1部分):
https://medium.com/@rchang/a-beginners-guide-to-data-engineering-part-i-4227c5c457d7
《數據工程入門指南》(第2部分):接着上面的文章,第2部分將介紹數據建模、數據分區、Airflow和ETL的最佳實踐。
《數據工程入門指南》(第2部分):
https://medium.com/@rchang/a-beginners-guide-to-data-engineering-part-ii-47c4e7cbda71
《數據工程入門指南》(第3部分):這是入門指南系列中的最後一部分,本部分將介紹數據工程框架的概念。在整個系列中,做者不斷將理論與Airbnb的實踐相結合,從而寫了一篇篇精妙絕倫的文章,並且還在持續更新中。
《數據工程入門指南》(第3部分):
https://medium.com/@rchang/a-beginners-guide-to-data-engineering-the-series-finale-2cc92ff14b0
O'Reilly的免費數據工程電子書套件:O'Reilly以其優秀的圖書而出名,這一系列也不例外。不過,這些書是免費的!向下滾動到「大數據架構」部分,查看那裏的書籍。有些書籍須要有大數據基礎設施的基本知識,但這些書將有助於你熟悉複雜的數據工程任務。
O'Reilly的免費數據工程電子書套件:
https://www.oreilly.com/data/free/
雖然還有其餘的數據工程專用編程語言(如JAVA和Scala),但咱們本文將只關注Python。咱們看到業界已經明顯轉向使用Python,並且使用率正在快速上升。它已經成爲數據工程師(和數據科學家)技能的重要組成部分。
網絡上有大量的學習Python資源,我在下面提到了其中的一些。
在Scratch平臺上使用Python學習數據科學的完整教程:KunalJain的這篇文章涵蓋了一系列能夠用來開始學習和提高Python的資源,這是必讀的資源。
在Scratch平臺上使用Python學習數據科學的完整教程:
https://www.analyticsvidhya.com/blog/2016/01/complete-tutorial-learn-data-science-python-scratch-2/
使用Python的數據科學導論:這是Analytics Vidhya上最受歡迎的課程,涵蓋了Python的基本知識。咱們還額外介紹了核心統計概念和預測建模方法,以鞏固你對python和數據科學基礎的理解。
使用Python的數據科學導論:
https://trainings.analyticsvidhya.com/courses/coursev1:AnalyticsVidhya+DS101+2018T2/about
Codeacademy上學習Python課程:本課程不須要編程基礎,絕對是從python的最基礎開始,這是一個很好的起點。
Codeacademy上學習Python課程:
https://www.codecademy.com/learn/learn-python
若是你喜歡經過書原本學習,下面是一些免費的電子書,便於你開始學習:
Allen Downey的《思考Python》:全面深刻地介紹了Python語言,很是適合新手,甚至非程序員。
Allen Downey的《思考Python》:
http://www.greenteapress.com/thinkpython/thinkpython.pdf
Python 3的非程序員教程:顧名思義,它是非IT背景和非技術背景新手們的完美起點,每章都有大量的示例來測試你的知識。
Python 3的非程序員教程:
https://upload.wikimedia.org/wikipedia/commons/1/1d/Non-Programmer%27s_Tutorial_for_Python_3.pdf
在整個數據科學世界的「機器」中,操做系統是使管道運轉起來的重要「齒輪」。數據工程師應該瞭解基礎設施組件(如虛擬機、網絡、應用程序服務等)的輸入和輸出。你對服務器管理有多精通?你對Linux是否有足夠的瞭解,能夠瀏覽不一樣的配置嗎?你對訪問控制方法有多熟悉?做爲一名數據工程師,這些只是你將面臨的一些問題。
Linux服務器管理和安全:本課程是爲那些想了解Linux如何在公司應用的人而設計的,課程內容分爲4周(最後還有一個項目),詳細介紹了這個主題中的全部基本內容。
Linux服務器管理和安全:
https://www.coursera.org/learn/linux-server-management-security
CS401-操做系統:和其餘操做系統課程同樣全面,這個課程包含9個部分,專門介紹操做系統的不一樣方面。主要介紹基於Unix的系統,儘管Windows也包括在內。
CS401-操做系統:
https://learn.saylor.org/course/cs401
Raspberry Pi平臺和Raspberry Pi的python編程:這是一個煊赫一時的編程方式,如今對這種編程人員的需求空前高漲。本課程旨在讓你熟悉Raspberry Pi環境,並讓你開始學習Raspberry PI上的python基本代碼。
Raspberry Pi平臺和Raspberry Pi的python編程:
https://www.coursera.org/learn/raspberry-pi-platform
爲了成爲一名數據工程師,你須要熟練掌握數據庫語言和工具。這是另外一個很是基本的要求,你須要具有實時從數據庫收集、存儲和查詢信息的能力。現今有不少可用的數據庫,我已經列出了目前在業界普遍使用的數據庫的相關資源,分爲SQL和NoSQL兩部分。
SQL數據庫
免費學習SQL:這是codecademy另外一個課程,你能夠在這裏學到SQL很基本的知識,像操做、查詢、聚合函數這些主題從一開始就涵蓋了。若是你是這個領域的新手,沒有比這更好的起點了。
免費學習SQL:
https://www.codecademy.com/learn/learn-sql
快速查找SQL命令的備忘錄:一個很是有用的Github存儲庫,包含按期更新的SQL查詢和示例。爲了保證你在任什麼時候候均可以快速查找SQL相關命令,請將爲這個存儲庫加入收藏,做爲平常參考。
快速查找SQL命令的備忘錄:
https://github.com/enochtangg/quick-SQL-cheatsheet
MYSQL教程:MySQL建立於20多年前,至今還是業界的熱門選擇。這個資源是一個基於文本的教程,易於理解。這個站點最酷的是,每一個主題都附帶實用示例的SQL腳本和屏幕截圖。
MYSQL教程:
http://www.mysqltutorial.org/
學習Microsoft SQL Server:本教程從基礎知識到更高的主題探討SQL Sever的概念,並以代碼和詳細的屏幕截圖的方式解釋了概念。
學習Microsoft SQL Server:
https://www.tutorialspoint.com/ms_sql_server/
PostgreSQL教程:這是一個讓人驚叫的詳細指南,讓你開始和熟悉PostgreSQL。本教程分爲16個部分,所以你徹底能夠想象出該課程的覆蓋面有多廣。
PostgreSQL教程:
http://www.postgresqltutorial.com/
Oracle Live SQL:誰能比建立者更好地學習Oracle SQL數據庫?這個平臺設計得很是好提供了良好的終端用戶體驗。你能夠在這個平臺上查看腳本和教程,而後還能夠在這裏編碼。哇,這太棒啦!
Oracle Live SQL:
https://livesql.oracle.com/apex/f?p=590:1000
NoSQL數據庫
MongoDB來自MongoDB:這是目前最流行的NoSQL數據庫,和上面說起的Oracle培訓課程同樣,學習MongoDB最好的方式是從建立它的大師們那裏學習。我在這裏連接了他們的整個課程目錄,你能夠選擇你想參加的培訓課程。
MongoDB來自MongoDB:
https://university.mongodb.com/courses/catalog
MongoDB簡介:本課程將幫助你快速啓動和運行MongoDB,並教你如何利用它進行數據分析。這是一個爲期3周的短課程,但有大量的練習。當你完成的時候,會以爲本身就是一名專家了!
MongoDB簡介:
https://www.coursera.org/learn/introduction-mongodb
學習Cassandra:若是你正在尋找一個優秀的、基於文本的、新手易於理解的Cassandra簡介,這會是一個完美的資源。像Cassandra的架構、安裝、關鍵操做等主題都會在這裏有所介紹,本教程還提供了專門的章節來說解CQL種可用的數據類型和集合、以及如何使用用戶自定義的數據類型。
學習Cassandra:
https://www.tutorialspoint.com/cassandra/index.htm
Redis Enterprise:瞭解Redis的資源很少,但這一個站點就足夠了。有多個課程和精心設計的視頻,令人沉浸其中,樂趣無窮,並且它是免費的!
Redis Enterprise:
https://university.redislabs.com/
Google Bigtable:做爲Google的產品,學習BigTable工做原理的資源稀缺得讓人驚訝,我連接了一個包含大量谷歌雲主題的課程,你能夠向下滾動,選擇BigTable(或BigQuery)。不過,我建議你仔細閱讀整個課程,由於它提供了有關谷歌整個雲產品如何工做的寶貴看法。
Google Bigtable:
https://www.coursera.org/learn/gcp-fundamentals
Couchbase:這裏提供多種培訓課程(向下滾動查看免費培訓課程),從初學者到高級都有。若是Couchbase是大家所用的數據庫,那麼你將在這裏瞭解有關它的全部信息。
Couchbase:
http://training.couchbase.com/store
如今,在每個數據工程師的工做描述中都會看到像Hadoop(HDFS)這樣的分佈式文件系統。它是全部角色都須要掌握的,你應該很是熟悉。除此以外,你還須要瞭解ApacheSpark、Hive、Pig、Kafka等平臺和框架,我在本節列出了全部這些主題的資源。
Hadoop和MapReduce
Hadoop基礎知識:這本質上是Hadoop的學習路徑,它包括5門課程,可讓你深刻地瞭解hadoop是什麼、定義它的體系結構和組件是什麼、如何使用它、它的應用怎麼樣以及其餘更多的內容。
Hadoop基礎知識:
https://cognitiveclass.ai/learn/hadoop/
Hadoop入門包:對於想要着手開始學Hadoop的人來講,這是一個很是全面的、優秀的免費課程。它包括HDFS、MapReduce、Pig和Hive之類的主題,能夠經過免費訪問集羣來練習所學的內容。
Hadoop入門包:
https://www.udemy.com/hadoopstarterkit/
HortonWorks教程:做爲Hadoop的建立者,HortonWorks擁有一套使人萬分期待的課程,能夠學習與Hadoop相關的各類知識。從低級到高級,本頁有着很是全面的教程列表,必定要看一下這個!
HortonWorks教程:
https://hortonworks.com/tutorials/
MapReduce簡介:在閱讀本文以前,你須要瞭解Hadoop的基本工做原理。請完成後,再回來深刻了解MapReduce的世界。
MapReduce簡介:
https://www.analyticsvidhya.com/blog/2014/05/introduction-mapreduce/
Hadoop超越了傳統的MapReduce-簡版:本文介紹了Hadoop生態系統的概述,它超越了簡單的MapReduce。
Hadoop超越了傳統的MapReduce-簡版:
https://www.analyticsvidhya.com/blog/2014/11/hadoop-mapreduce/
更喜歡書嗎?別擔憂,我已經幫你選好了!下面是一些免費電子書,涵蓋hadoop和它的組件。
《Hadoop詳解》:簡要介紹Hadoop的複雜體系,對Hadoop的工做原理、優點、現實場景中的應用程序等進行了高層次的概述。
《Hadoop詳解》:
https://www.packtpub.com/packt/free-ebook/hadoop-explained
《Hadoop-你應該瞭解的》:這本書和上面的書有類似的內容。正如描述所說,這些書所涵蓋的內容足夠讓你瞭解Hadoop的方方面面,從而作出明智的決策。
《Hadoop-你應該瞭解的》:
https://www.oreilly.com/data/free/hadoop-what-you-need-to-know.csp?intcmp=il-data-free-lp-lgen_free_reports_page
《使用MapReduce進行數據密集型文本處理》:這本免費電子書涵蓋了MapReduce的基本知識及其算法的設計,而後深刻探討了你應該瞭解的示例和應用程序。建議你在閱讀這本書以前先上上述課程。
《使用MapReduce進行數據密集型文本處理》:
https://lintool.github.io/MapReduceAlgorithms/MapReduce-book-final.pdf
你應該加入Hadoop LinkedIn小組,以保證本身獲取最新的消息,並詢問你的任何問題。
Hadoop LinkedIn小組
https://www.linkedin.com/groups/988957/profile
Apache Spark
Apache Spark、RDD和Dataframes(使用PySpark)的綜合指南:這是一篇讓你開始學習Apache Spark的終極文章,屬於必讀指南。它介紹了Apache Spark的歷史以及如何使用Python、RDD/Dataframes/Datasets安裝它,而後經過解決機器學習問題,對本身的知識點進行查漏補缺。
Apache Spark、RDD和Dataframes(使用PySpark)的綜合指南:
https://www.analyticsvidhya.com/blog/2016/09/comprehensive-introduction-to-apache-spark-rdds-dataframes-using-pyspark/
初學者學習Spark R的詳細指南:若是你是R的用戶,這個就是爲你準備的!固然,你可使用Spark和R,本文能夠做爲你的指南。
初學者學習Spark R的詳細指南:
https://www.analyticsvidhya.com/blog/2016/06/learning-path-step-step-guide-beginners-learn-sparkr/
Spark的基礎知識:本課程涵蓋Spark的基礎知識、組件、使用方法、使用它的交互式示例和各類Spark庫,最後瞭解Spark集羣。你還能從這門課程中要求更多的內容嗎?
Spark的基礎知識:
https://cognitiveclass.ai/courses/what-is-spark/
ApacheSpark和AWS簡介:這是一門以實踐爲中心的課程。你將處理古登堡項目數據,它是世界上最大的電子書開放數據集。你還須要瞭解Python和Unix命令行,以便從本課程中學到更多。
ApacheSpark和AWS簡介:
https://www.coursera.org/learn/bigdata-cluster-apache-spark-and-aws
涵蓋Hadoop、Spark、Hive和Spark SQL的綜合教程
大數據基礎知識-HDF、MapReduce和Spark RDD:本課程採用真實的數據來教你基本的大數據技術-HDFS、MapReduce和Spark。這門課程很是詳細,示例豐富,數據集實用,並且教師很優秀,屬於經典課程。
大數據基礎知識-HDF、MapReduce和Spark RDD:
https://www.coursera.org/learn/big-data-essentials
大數據分析-Hive、Spark SQL、DataFrames 和GraphFrames:MapReduce和Spark解決了處理大數據的部分問題,經過這門直觀的課程你能夠掌握這些高級工具,從而掌握有關Hive和Spark SQL等方面的知識。
大數據分析-Hive、Spark SQL、DataFrames 和GraphFrames:
https://www.coursera.org/learn/big-data-analysis
大數據應用-實時流:處理大數據的挑戰除了要具有處理數據的計算能力,還要具有儘量快的處理速度。像推薦引擎這樣的應用程序須要實時地進行大量數據的處理、存儲和查詢,這就要求你掌握本課程中所提供的諸如Kafka、Cassandra和Redis等系統的知識。但要學習這門課程,你須要瞭解Hadoop、Hive、Python、Spark和Spark SQL的應用。
大數據應用-實時流:
https://www.coursera.org/learn/real-time-streaming-big-data
Kafka
使用Apache Kafka簡化數據管道:瞭解Apache Kafka及其體系架構和使用方法,你須要對Hadoop、Spark和Python有基本的瞭解,才能真正從本課程中得到最大的收穫。
使用Apache Kafka簡化數據管道:
https://cognitiveclass.ai/courses/simplifyingdatapipelines/
Kafka官方文檔:這是一個很是直觀地介紹Kafka的工做原理及其組件的網頁,它還提供了一個關於分佈式流媒體平臺的解釋說明,很是棒!
Kafka官方文檔:
https://kafka.apache.org/intro
用Kafka給數據科學家賦能:這自己不是一個很好的學習資源,而是一篇介紹Stitch Fix的數據工程師如何根據數據科學家的要求構建一個平臺的文章,很是有趣,並且十分詳細。
用Kafka給數據科學家賦能:
https://multithreaded.stitchfix.com/blog/2018/09/05/datahighway/
雖然人們廣泛認爲機器學習是數據科學家的領域,但數據工程師也須要精通其中的某些技術,緣由在於你須要簡化將模型投入生產的過程和用於數據收集、生成的管道。所以,你須要對機器學習算法有一個基本的瞭解。
學習機器學習基礎知識的新手指南:做者Kunal Jain精彩地介紹了機器學習世界,旨在消除你聽到或讀到地全部行話。指南直截了當地切入問題的核心,最終你會愛上這種寫做風格。
學習機器學習基礎知識的新手指南:
https://www.analyticsvidhya.com/blog/2015/06/machine-learning-basics/
機器學習算法基本知識:這是一篇優秀的文章,提供了各類對機器學習算法的高層次理解,還提供了在R和python實現這些算法的指南,這是開啓你學習旅程的絕佳地點!
機器學習算法基本知識:
https://www.analyticsvidhya.com/blog/2017/09/common-machine-learning-algorithms/
新手必讀的機器學習和人工智能書籍:若是你更喜歡看書,那麼請閱讀本文!這裏收藏了最優秀的書,即便你只讀了其中的幾本,這也會助你朝着夢想中的事業邁進一大步!
新手必讀的機器學習和人工智能書籍:
https://www.analyticsvidhya.com/blog/2018/10/read-books-for-beginners-machine-learning-artificial-intelligence/
提高你知識和技能的24個終極數據科學項目:一旦你得到了必定量的知識和技能,請必定要把你的理論知識付諸實踐。查看這些數據集,按照易到難的順序,開始處理吧!
提高你知識和技能的24個終極數據科學項目:
https://www.analyticsvidhya.com/blog/2018/05/24-ultimate-data-science-projects-to-boost-your-knowledge-and-skills/
成爲一名數據工程師並不容易,由於你須要從以上全部的資源中獲取信息,並且你還要有着將工具、技術和職業道德融爲一體的深刻理解。因爲如今是數據時代,數據工程師在業內需求巨大,對於任何願意從事這一工做的人來講,這依舊是一個收入可觀的職業選擇!
一旦你走上這條路,就力爭成爲數據工程師吧!