全棧 - 2 序言 數據工程和編程語言

這是全棧數據工程師養成攻略系列教程的第二期:2 序言 數據工程和編程語言。前端

如今大數據的概念火得不行,太多的人言必稱大數據,因此我這裏就不談大數據,而是介紹如何去作一些我的能hold住的小而美的數據工程和數據應用。mysql

如何玩轉數據

玩轉數據基本包括如下四個流程:sql

  1. 第一是採集,咱們的數據從何而來?要麼是別人準備好提供給咱們,要麼就須要咱們本身去採集,或者從互聯網上抓取;
  2. 第二,咱們須要把採集到的數據存儲下來。能夠存儲到靜態文件,例如txt、csv、json等,也能夠存儲到一些通用並且成熟的數據庫裏,例如mysql、postgres等;
  3. 第三,對存儲的數據進行清洗分析。一方面是作一些統計彙總的工做,並得出一些結論;另外一方面是用機器學習的方法訓練一些模型,而且用來解決實際問題;
  4. 最後,用數據可視化的方法將所得的結論和模型進行展現,畢竟一圖勝千言,數據可視化能夠幫助咱們更好地展現從數據中挖掘出的價值。

關於編程語言

不少人都在爭論,到底哪一種編程語言最好;也有不少人在困惑,要作數據分析的話,應該從哪一種編程語言學起。其實在我看來,只學習一門語言可能遠遠不夠,而是各個方面都應當有所涉足,可是同時又有最擅長和習慣使用的一兩門語言。數據庫

C++和Java這兩門語言你須要至少熟悉一門,從而瞭解語法的基本內容和麪向對象的編程思想。熟悉的意思是不用徹底掌握,只要在要用的時候,查一查,可以快速回想起來相關內容便可。編程

Python是一門簡單好用並且功能強大的語言,也是我使用最多、最爲熟悉的一門語言,開玩笑地說,Python大法好,除了炒菜別的Python均可以幹。json

R是一門統計分析語言,近幾年它的學習門檻和成本都在不斷下降,能夠用來作一些專業的分析和繪製一些漂亮的圖形。後端

而後就是和Web網站開發相關的一些語言,例如後端的PHP、NodeJS,前端的HTML、CSS和JavaScript等。less

就我我的而言,比較習慣於用Python採集數據而且寫入到文件或數據庫,作分析的時候結合使用Python和R。至於可視化,則是用R繪製一些靜態圖形,使用Web網站作一些交互可視化。機器學習

在接下來的教程中,我會以Python爲主,爲你們介紹如何進行數據的採集、存儲、分析和可視化,帶你們去作一些簡單而有意思的事情。編程語言

視頻連接:數據工程和編程語言

若是以爲文章不錯,不妨點一下左下方的喜歡~

相關文章
相關標籤/搜索