1.項目的方向很重要,在項目開始之初就應該作好設計,而不是將但願寄託於別人已經作好的開源項目上,要本身作好系統設計,不能老想着直接用外部成型的項目,最多看看他人的邏輯,而不是說所有拿來。這點最爲重要。前期應該多作background reading,本身作好系統架構。架構
2.作項目的時候,開始啓動項目的時候要肯定好架構的應用場景,好比spark,hadoop確實很火,可是用它們來跑deeplearning真的很慢,在最開始作的時候,就要發現這個問題,及時調整方向就行了,而不能等到最後還在死扛着,整個項目就毀了。因此應該考慮使用spark和hadoop來進行個性化推薦或者輿情分析的。工具
3.隊友的選擇很重要,本身在項目之初高估了本身的能力,也沒有用上隊友的能力,致使最後這個項目只能死扛了,當時其實沒有必要,你們都沒有得到到東西這樣。而本身一我的也不想作了。oop
在作項目過程當中的感悟:性能
1.不是什麼東西都是能夠改改就能夠用的,或者雖然能夠跑了,可是性能並很差,但這反應的是個人基本工很差,好比我沒有徹底弄清楚spark怎麼調優,雖然deeplearn4j是能夠在spark上使用的, 可是它們的example就不合適,也許對於模型訓練最好的仍是在一臺性能強大的機器上 去完成,而且雖然deeplearn也許須要大量的數據集,可是我選擇的數據只是很小的數據,更加不該該放在集羣上跑了。不過我本身也有一個疑惑,deeplearning通常的訓練數據集是有多大了?spa
2.對於spark,我發現仍是大量數據纔能有用,也許是流數據才行了。好比,其餘組主要作的是streaming的推薦以及輿情分析。或者商品推薦也是一個應用方向。據說還有的是圖像處理方向,好比類似圖片的推薦等。scala
目前本身想要立的flag:設計
1.作一個系統,涉及到輿情分析的:初步設想子系統分佈:獲取tweet數據,處理數據,----使用deeplearning或者NLP模型進行預測結果,將這一段時間的結果進行統計而且展現。圖片
---- 這裏也可使用數據進行雲圖,將關鍵字列出來。hadoop
這個系統還有一個模型訓練的問題,我目前的想法是使用現有的論文進行參考,而後實現一個。spark
2.在作一個新聞推薦系統,若是新聞推薦系統沒有數據源,那仍是參考tweet數據,根據我的的tweet來classification,而後進行tweet的消息推送,這個也能夠擴展到微博的使用上。
但願,後面能夠用兩個星期來完成這兩個項目,我的項目,因此還涉及到網頁的展現。dashboard上。
另外就是這些項目是否是能夠考慮使用scala來完成。不過工具的使用仍是要考慮性能,個人能力,而不是爲了使用而使用。