最近作項目做業的一點點感觸

時間 2019-12-11

標籤近作項目一點點感觸简体版

原文原文鏈接

1.項目的方向很重要，在項目開始之初就應該作好設計，而不是將但願寄託於別人已經作好的開源項目上，要本身作好系統設計，不能老想着直接用外部成型的項目，最多看看他人的邏輯，而不是說所有拿來。這點最爲重要。前期應該多作background reading，本身作好系統架構。架構

2.作項目的時候，開始啓動項目的時候要肯定好架構的應用場景，好比spark，hadoop確實很火，可是用它們來跑deeplearning真的很慢，在最開始作的時候，就要發現這個問題，及時調整方向就行了，而不能等到最後還在死扛着，整個項目就毀了。因此應該考慮使用spark和hadoop來進行個性化推薦或者輿情分析的。工具

3.隊友的選擇很重要，本身在項目之初高估了本身的能力，也沒有用上隊友的能力，致使最後這個項目只能死扛了，當時其實沒有必要，你們都沒有得到到東西這樣。而本身一我的也不想作了。oop

在作項目過程當中的感悟：性能

1.不是什麼東西都是能夠改改就能夠用的，或者雖然能夠跑了，可是性能並很差，但這反應的是個人基本工很差，好比我沒有徹底弄清楚spark怎麼調優，雖然deeplearn4j是能夠在spark上使用的，可是它們的example就不合適，也許對於模型訓練最好的仍是在一臺性能強大的機器上去完成，而且雖然deeplearn也許須要大量的數據集，可是我選擇的數據只是很小的數據，更加不該該放在集羣上跑了。不過我本身也有一個疑惑，deeplearning通常的訓練數據集是有多大了？spa

2.對於spark，我發現仍是大量數據纔能有用，也許是流數據才行了。好比，其餘組主要作的是streaming的推薦以及輿情分析。或者商品推薦也是一個應用方向。據說還有的是圖像處理方向，好比類似圖片的推薦等。scala

目前本身想要立的flag：設計

1.作一個系統，涉及到輿情分析的：初步設想子系統分佈：獲取tweet數據，處理數據，----使用deeplearning或者NLP模型進行預測結果，將這一段時間的結果進行統計而且展現。圖片

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　---- 這裏也可使用數據進行雲圖，將關鍵字列出來。hadoop

　這個系統還有一個模型訓練的問題，我目前的想法是使用現有的論文進行參考，而後實現一個。spark

2.在作一個新聞推薦系統，若是新聞推薦系統沒有數據源，那仍是參考tweet數據，根據我的的tweet來classification，而後進行tweet的消息推送，這個也能夠擴展到微博的使用上。

但願，後面能夠用兩個星期來完成這兩個項目，我的項目，因此還涉及到網頁的展現。dashboard上。

另外就是這些項目是否是能夠考慮使用scala來完成。不過工具的使用仍是要考慮性能，個人能力，而不是爲了使用而使用。