本系列專屬github地址:https://github.com/ios122/spark_lagouios
我以爲若是動筆,就應該努力地把要說的東西表達清楚.從此一段時間,嘗試下系列博客文章.簡單說,若是內心想表達想分享的,就適當規劃組織下,使其相對自成體系,以便於感興趣但可能恰好某個領域還不是很熟的人,也能很好地入手.系列文章,我會努力避免過於主觀化的描述,同時吸收以往的經驗,儘可能給每一個系列的文章都設置一個單獨的 github 項目,供查閱參考.git
Spark系列,由於本人並不是供職於大型數據公司,也不曾在較大數據集上實踐過,因此內容可能僅供初級入門者參考.目前,我處理過的較大的數據集,也僅在百萬條左右,可是也不得不驚歎 Spark 作爲數據分析工具的便利性,100w條數據,在3臺BMR服務器結點上,複雜查詢通常在十秒之內.從數據分析的工具角度,我以爲 Spark 仍是有必要了解的,大多數時候,基於數據的多個維度分析出的結論,可能比某些抽象的統計數據,能有說服力.github
以拉勾網 iOS 職位最近一個月的公開招聘信息做爲樣本.這是一個樣本,到時我會具體說一下數據獲取的方法和思路,還會奉上可用的腳本.服務器
Spark是主要分析工具.我前一段時間,看了那本<<Hadoop 權威指南>>,而後開始了Spark的學習.本身感受 Spark,可能更符合本身目前階段的須要--小規模數據的即時分析.微信
我會直接基於百度BMR來分析數據.至今,我沒有試過本身搭建spark開發環境,也暫無打算研究.由於我以爲,大數據的分析,硬件仍是挺貴的,好在如今有云平臺,即開即用,用完釋放掉便可.還有一個緣由是,單機版的Spark和分佈式的Spark,某些函數的行爲仍是有差別的.我看阿里雲,也有相似的大數據分析平臺,應該也是能夠的.數據結構
實名認證的百度開發者帳號,註冊請到 https://login.bce.baidu.com 由於必須是實名認證的百度開發者帳號,才能夠建立 BMR 實例,沒有帳號,可能會影響到你觀察文章的體驗.由於這個實名認證要審覈的,最好提早弄.分佈式
交代基本背景,動機與必要準別事宜等,爲進一步文章鋪墊.函數
使用腳本自動獲取數據,會涉及數據源的分析,腳本編寫思路,以及一個最終可用的腳本和實際採集的完整數據附件.工具
主要講解百度大數據平臺BMR的基礎操做與經常使用工具的使用.固然電腦性能較爲強悍的童鞋,能夠本身安裝研究下Hadoop,Spark和Zeepline等工具.用BMR,比較省錢,按分鐘計費,一小時 2塊左右,我一般只是有感興趣的數據題材時纔開啓.順便插一句,以數據的視角,自由組合維度來觀察某些本身關心的數據,真的看出來許多刷新本身認知的真實.不過,考慮到工具的可擴展性,我仍是建議掌握下 BMR或者阿里的大數據平臺的基礎使用.oop
這裏,會結合數據結構,展現下數據分析與提取的基本思路,而後會選幾個角度分析下數據.方法是根本,簡單瞭解下,再多看看 spark 和 scala 文檔,我相信你們是能夠自由使用Spark來分析本身感興趣的數據的.
版權聲明: iOS122 顏風 署名系列文章,每日 7:20 首發於微信公衆號 iOS122gg,其餘平臺第二天10點更新.除各大博客平臺的iOS122官方專欄外,其餘任何用途的轉載與使用,請務必註明出處!