感悟:曾經一直對本身在組內的研究方向特別困惑,一方面師兄想讓本身在組內研究Spark,但組內的師兄和導師對Spark並不太熟悉,另外也沒有具體的任務驅動去完成這件事;另外一方面本身以爲師兄對deep learning比較熟悉,跟着或許能學點東西。可是今日和同窗錦坤交流後又以爲對於目前的本身來講deep learning並不能作出什麼特別有用的成就,這方向更適合搞研究而不是作工程,然而我對作研究的信息並不大,所以往deep learning這個方向走可能對之後的就業的幫助並不大。然而Spark的話,對於組內來講王老師和師兄都是大力支持的,而上學期的我基本就是半玩半忽悠就走過來了,幾乎沒作什麼對組內和對本身有用的實事,這點須要深刻地自我批評一番。拋開這個,Spark對於組內和未來走出去的就業方向來講都是大有前途的,我是大數據方向的,學好數據處理的平臺以及用好相應的構建,並學習一些數據分析和數據處理的方法,再結合Deep Learning等技術,這對於從此的發展確定大有裨益。數據庫
從此該走哪條路線呢(碰到每一個新事物都嘗試着去用一用)?1.將Spark生態圈的全部構建都使用一遍:包括開發包mllib,sparkSQL,sparkStreamming等,這個須要出一個每一個工具的使用歸納,性能分析的文檔; 2.把Spark相應的論文和Spark submit上介紹的開發應用的視頻和PPT好好研究一遍,這個須要總結Spark在理論,應用上所作的工做以及一些trick的文檔; 3.將Spark實踐中踩過的每一個坑記錄下來並緊跟Spark社區的討論和分析; 4.再次回到Spark的源碼中,打Log分析Spark中不清楚的流程,最好這個搭建的流程須要時分佈式的測試平臺。 5.把Spark弄熟以後呢,要開始着手對Spark生態圈的整個框架作深刻研究,好比對YARN和HDFS的深刻研究,再一個就是一些NOSQL的數據庫的分析探究。框架