2018 研一下

五月

最後一週:渾渾噩噩大約一個月,找工做要緊,不能再這樣了java

 

第三週:node

這周要作的: 基於稀疏組合學習的異常事件檢測技術研究python

第一二週:git

距離開始複習期末考試還有一月的時間,這一個月的時間裏應該作什麼?github

基於無人機的動做檢測方面算法

第一週 幹了啥?作成了啥?啥都沒有,滿滿的疲憊,什麼都不想作,大概是第四月的三週開始.爲何會這樣那,我猜第一是兩週前作算法的挫敗感吧,感受本身對算法的幻想彷佛所有破滅了,而後沒有了具體的目標,就想自暴自棄.哎sql

這看來就是真實的我,情緒忽亢奮,忽頹廢,這只是讀研下的一個縮影,可能這種狀態一直存在,只是有不一樣的表現形式,高考前半年頹廢,大學時時而的頹廢,如今又回來了~it's real me數據庫

這種狀態沒有對錯,只是會讓人太喪了,什麼都不想作,渾身無力,好像給本身再灌幾碗雞湯都沒用,api

問題出現,那麼如何解決?網絡

1.專一一個小任務

兩週內完成專利說明部分,這周任務是異常檢測部分的方案:

2.從新進行職業規劃

大數據開發工程師與算法的應用

3.補計算機基礎 多個任務串行學習,先從最難,最抽象的操做系統開始,再是分佈式

a.操做系統,分佈式 基礎知識,須要好好補一下,

基本操做系統學習:

分佈式存儲(結構化存儲關係型數據庫,非結構化存儲:HDFS沒法支持隨機訪問;半結構化存儲:NOSql,HBASE等;In-memory 存儲 memcahed Redis內存k-v),

分佈式計算(MapReduce-like 系統:hadoop,spark相似;Streaming 系統:Storm, Spark Streaming, Flink; 圖計算系統),

分佈式管理

task list: 牛客,阿里大學

b.java語言系列,多線程,虛擬機等

四月

今年大目標:  能有算法崗的能力!

有多個技術的點:

1.機器學習方面  

機器學習算法方面的基礎知識 

數學原理,最優化方法

大數據處理工具/架構方面

算法相關的項目經驗

a.算法的原理,損失函數,推導,優缺點,適用條件等基本知識,以及工程實現(單機,分佈式,算法優化)

b.數學方面的提升:最優化!這個點很重要,經常使用的如LR的各類優化方法,DL的各類最優化方法   數理統計方面有什麼好的切入點???目前還不知道

c.大數據處理框架的使用, spark等分佈式處理,ML工具的使用,  架構源碼方面的瞭解,各類分佈式的思想!!!

d.sql 類sql等工具的掌握.

e.競賽方面(kaggle,天池, 傳統數據挖掘,圖像,NLP等方向)

f.可否有好的機器學習實踐的開源項目學習??

2.深度學習方面

3.工程方面

spark hadoop

sklearn

TensorFlow 要不要源碼級別去研究??

學習步驟

  • 看Paper,瞭解TensorFlow核心概念
  • 看官方文檔,瞭解Usage
  • 參照文檔寫Demo
  • 使用TensorBoard加深印象
  • 搭建分佈式TensorFlow
  • 學習深度學習算法
  • 寫更多的Demo
  • 學更多的深度學習算法
  • 寫更多的Demo
  • 參與TensorFlow社區討論
  • 看TensorFlow源碼

如何達成大目標的階段性目標: 

機器學習方面:

1.算法的原理等相關知識的梳理,一個個的算法來,包括算法的本身實現,與spark分佈式實現,sklearn源碼,等 [DT,KNN,LR,GBDT,RF等,SVM]系統的學習與整理,定好計劃,一個個來,論文學習??數據,博客等資料的整理;

2.最優化算法的實現??看懂原理,儘可能嘗試在上面實現的算法上面使用

3.sql修煉,刷LeetCode, 基礎算法題何時開始刷?? 刷完SQL再說吧, nosql方面,之後再說吧,先留意下

4.spark學習,spark數據預處理,特徵提取,機器學習等流程; 最好找一個須要使用spark的大數據競賽  spark架構方面之後再說   -> Scala底層實現

其餘算法等到後面再說

學習序列:LR,LR相關最優化方法, sklearn最優化實現方法   第二週

spark的數據預處理方法, spark機器學習使用,spark 分佈式算法學習  第三週

深度學習方面:

技術棧:

路線:

兩週搭建好; 基於靜態目標檢測的架構 ;  這兩週內要作的,具體無人機視頻狀況-低空巡航的高度,高空巡航的高度,兩種狀況下視頻的具體狀況;

點: 是否能提升單個類別的檢測精度?直接將網絡弄成二分類那?  特定感覺野, 能不能在單個不一樣目標中,將不一樣卷積大小,感覺野等超參數化,訓練成適用於不一樣單分類的二分類識別??(先探究不一樣單分類中,目標大小,受到感覺野的影響等);

下一步是基於視頻的目標追蹤, 在單個靜態目標檢測的基礎上,由有了上下文之間的關係,(工做難度?) 可分爲靜態狀況下的目標追蹤和動態狀況下的目標最終? 傳統方法的目標追蹤和深度學習目標追蹤?   

深度學習3D模型重建

視頻中的目標檢測可利用幀間信息,對目標運動進行建模預測,提升檢測效率

點:由遠到近拉近鏡頭的追蹤問題??  遮擋追蹤問題,因爲無人機俯視的特定,半遮擋能不能改進??

幾個點: batch Normal  what?how?why?

數據集標註問題:靜態與動態數據集標註;

幾條線:RCNN ,fast RCNN, faster RCNN , yolo1,2,3 ,SSD接下來一週至少要完成兩個; 

傳統神經網絡的實現: LeNet-5,alexnet,ZFNET,GoogleNet,VGG,ResNet tf與caffe等不一樣實現 ,多GPU實現

第三週:

第一天:沉迷爬蟲,沒法自拔,一天都在鼓搗爬蟲

次日:上午沉迷爬蟲, 下午決心不能在這樣了; 下午從新審視 CV問題,繼續以前的工做! 

1.opencv學習的必要性?  2.如何快速實現fastrcnn訓練  3.下一步的目標是什麼?

 第三天: 上午使用tf來訓練 voc 爭取一天就作完, 晚上繼續機器學習的研究 或者爬蟲

 下午: 上午 tf 訓練 VOC失敗,要想解決估計須要去研究源碼,下午 再花10分鐘時間收個尾, 而後去看keras版的代碼!

這周要把keras版跑通,下週要看SSD版的目標檢測; 五一以前,目標檢測階段要基本結束了!給本身點壓力

還須要作的: Faster RCNN Yolo SSD   每一個點通下來; 而後幾個再串聯起來

1.faster RCNN keras源碼研究,跑通!!

2.修改本身的數據使之可以訓練出來,並得出結果 

3.去看lg的SSD版

4. 看與總結SSD的原理

5.是否繼續yolo??看工做量

五一假期期間,總結所有的工做! 

五一後第二週  開始視頻上的識別與追蹤, 五一與五一第一週這些東西都告一段落;

 

第二週

第一天:白天在鼓搗cifar10網絡,晚上 LR原理和SQL題目

次日 :上午上沙比課,下午開始擼faster rcnn ; trick:白天把python的一些語言特性學習下, 晚上:LR單機實現  

第三天:上午:fast RCNN理論學習,基本捋了捋全部點(可是ROI有兩個地方不是很瞭解,明天繼續看faster RCNN) 明天好好看看 keras實現的faster RCNN  ;DL的trick學習下;  下午開始看Google實現的cifar 10 分類,學習裏面的各類API,trick等  [tf 學習曲線很像C++]

第四天 白天狀態特別差,因此晚上開始從新來過, 先聽15-20分鐘的live, 今天晚上工做是:

第五天 天天的狀態都是想的太多,能作到的太少;  野心太大,能力很小 回顧這一週,我又作成了什麼?? 混混度日,雖然有一方面是學習思路沒有轉變回來,可是主要仍是執行力太差,自制力太差

學習能力?解決問題的能力?

https://zhuanlan.zhihu.com/p/25845413

學習一個技術的原則,從基礎開始 仍是 從問題開始,從基礎開始學院化,從問題開始,功利化(如何從問題開始學到深? 思考:工做記憶和長期記憶 記憶須要重複!)

行爲= 動機 + 行動能力 + 觸發點

元學習課 的課程設計, xdite老師爲了讓咱們「上癮」,1.下降行動的門檻(第一節課的做業是玩遊戲),2.提升行動的動機(完成做業有機會得到獎品),3.觸發行爲的發生(督促咱們寫做業拿獎品)。

級別有: 新手 (400小時 一個半到兩個月) 熟練工 (尋找興趣點,找到自信,堅持下去)  精通者 (不知道,接觸不到) 專家

學習: 如何學習 學習的策略 執行的方式 

執行方式: 專一一個點! 不要被其餘的分心,把其餘 不影響主進程的記下來,掛起!!! 分清主次

第一週 

alexNet  tf/models/tutorials 等TensorFlow框架 天天一小時   VGGNET   GoogleNet   ResNet   CIFAR-10 and ImageNet's dataset of 1000 classes.

第一天: caffe的RCNN實現,RCNN論文與關鍵技術細節; caffe安裝成功;TensorFlow一小時學習完成;晚上兩個小時李飛飛課程;

次日:tf和caffe實現alexNet;  明天早上前兩節課:(看書)  ;實現AlexNet;

務實:1.學東西的速度(加快,策略是:制定好策略,制定好計劃,找準方向和痛點);  2.技術的深度和廣度的把握,抓住要點深刻,也要有前瞻性縱覽性的見解  3.計劃,自律,效率    

務虛:看問題,找問題;  技術路線的制定!!! 目前最重要的仍是 務實的第一點,學東西的速度

新手 熟練工 精通 專家 

週六:今天有不少須要總結的! 

晚上任務:在看完卷積的東西后,學本身的東西, 1.sql聯繫, 2.傳統機器學習算法一個個來,順便實現等.增強訓練  中間間隔着來學習優化算法 3.效率低能夠看下視頻

白天任務,深度學習,深度學習的課程,課程,

今天晚上完成須要看的深度學習課程 ;sql 開始;

周天: 白天:VGGnet , Google Net 一天時間基本完成理論和基本實現; AlexNet訓練比賽數據集,包括可視化等,實現一個模板; 目標檢測方面:

完成這周須要看的深度學習課程, 

白天...啥也沒幹成吧.垃圾!

晚上:DT開始,繼續SQL  晚上開始學SQL, 明天上午看Alex for cifar,下午目標檢測;  上午吃飯前看看前瞻性論文

兩道SQL題目花了一個半小時,明天注意下時間, 能不能用一個小時???  或者天天一道題吧

LR:

三月 

新年新氣象,新年新計劃

第四周,

這一週第一天和上一週最後幾天效率都不怎麼樣,這周須要作的工做: 基於視頻的情緒識別demo,論文大致瞭解,  晚上天天保證三個小時的看課程時間!  下午廣告的比賽,特徵與模型聯繫   這半年的學習路線問題

第一天:上午啥都沒幹,下午啥也沒幹成 ,晚上聽課,

那些彷徨與迷茫,遇到困難就像放棄,遇到迷茫就什麼都不敢作,我又這樣了,像之前同樣,面對一個迷茫的地步,或許只能迷茫的前進(後退),我應該作什麼,我應該學什麼,我爲什麼不開心,我應該怎麼辦.下一步不知道怎麼走,那就只能閉着眼先走吧,小小的步子,當心的走,

1.選擇一個圖形方面的經典問題,查看論文,梳理髮展 視覺跟蹤 目標識別 語義分割(場景理解 街景分割 ) 圖形檢索 人臉相關 行人檢測 圖像識別理解,人臉檢測識別、目標檢測和跟蹤、OCR、加強現實、圖像質量評價,圖像分割等等方向,選着一個領域仔細研究

次日:無人機與視屏的交叉領域研究可行! 明天任務應該是關於目標檢測的demo實現與 目標檢測的理論總結,晚上又被瑣碎的事情分心了,九點二十纔開始繼續看李飛飛的視屏,此次要十二點回去.

第三天,上午任務:寫一個簡單的目標檢測的review,繼續看關於無人機的全部幾十篇相關的碩士論文,晚上,不去上天然語言的課程,爭取將全部的卷積網絡及以前的課程看完,看不完就加班看

新的一天,雖然不少地方仍是不行,可是終於心中有了方向和底氣,實驗室這幾個大三的師弟讓我真正感受到了壓力,之後要有不少的要弄的,先把目標檢測這個方向作一段時間,

第四天:任務:1.上午 兩篇英文論文,兩篇水中文學位論文,上午還有梳理一個具體的學習方案,

論文1:各個網絡之間的性能等比較.目的 看看論文的要點和各類網絡對比的細節

把常見的這幾個網絡的基本改進等細節梳理清楚,再決定要不要繼續讀原始的論文

關於實現方面,先讓林飛實現,我先梳理基礎的理論

晚上繼續看視頻,必定要看到卷積那裏!!

論文到了晚上仍是沒看... 明天一天爭取學好caffe,而且實現下faster R-CNN這個經典網絡,

第五天: faster r-cnn原理,模型結構,推導等,看caffe的官方實現,學caffe基本功能,先把caffe版faster r-cnn跑起來,查看細節,看是否能直接實現單任務識別,

周天:總結下這周作完,沒作完的事情,想一想下週作什麼:

 

先看論文,

第三週

3.19 作比賽,有點迷茫,明天重整旗鼓

3.20 上午:深度學習方面: 繼續瞭解卷積神經網絡  晚上看李飛飛的課程(天天必須四個小時的課程), 卷積中參數的計算,經典神經網絡的實現,350表情識別的實現,並對本身找到的圖片進行處理,emotiw2018競賽等的論文

  下午:天天下午固定作競賽,繼續提取特徵,交叉特徵,同時調整昨天特徵的參數,搞定評測中結果的問題,

3.21 上午深度學習 1.卷積中的參數與參數計算,可視化工具, 2.350px 表情實現 3.圖像綜述論文4.視頻表情三篇論文 下午:比賽 晚上: NLP課程上看看論文, 繼續課程

3.22 一天都在鼓搗機器,晚上聽cs231n的課程還算有點體會

3.23 上午:花書 繼續聽課 訓練出新的網絡, 找emotiw的比賽github 論文等,晚上繼續工做  下午,競賽的xgboost模型使用 晚上:聽課,

第二週

大目標/小目標  3 4 5 6四個月 完成三個大型數據比賽

關於spark 這周正式開始用spark作數據處理,這個月完成兩本書

3/12 C上午SVM算法開頭  下午:D(被老師拉去聽課,沒時間)基於o2o數據集 使用 LR gbdt rf  xgboost 等進行調參等操做,參考其餘幾我的的調參部分   晚上:沒時間去(spark學習 )   cs231n課程學習 ,

3/13 D英語據說,spark學習  回來後繼續推導svm 下午:先作o2o的題目,完成昨天的東西     晚上:sc231n  圖像識別小做業

3/14 昨天弄得都是垃圾, spark能夠先放下了, svm一會回來繼續推導,最麻煩的是下午的東西,o2o連續幾天沒有作成,今天由於體檢,計劃調整

上午 看李飛飛的深度學習課程,下午上課,帶着svm 繼續梳理推導, 晚上競賽必須完成!!!!!!!!!!!!!已經拖了好幾天了!

晚上11點半睡覺

3/15 早上6點20起牀,去跑步, 6點半開始,只跑了15分鐘,哎~~ 明天繼續保持15分鐘吧,先堅持一週,

上午 svm,梳理推導,今天目標是 SMO等,  十點鐘天池放榜,而後若是看公式看累了,調一會參數

下午: 繼續競賽,廣告搜索業務 ; 

晚上:李飛飛 前7個課時要完成, 時間充足的話,搭建一個keras的網絡,熟悉下   ;晚上10點前提交一次,十點後再提交一次

第一週

時間宏觀規劃 天天要求本身8點到實驗室, 下午兩點到實驗室  晚上11點回去  12點半以前睡覺(設置手機自動關機)

規劃: 晚上 學習本身計劃外的東西(如cs224d cs231n等課程,須要天天明確的時間的)

首周計劃試行:spark工具學習  cs224d列出計劃和方案

3/1 下午 cs224d class1 ,一下午看完第一節課,先定計劃爲一週三節課,一天半節課

3/1 晚上 兩個探索,第一是關於數據競賽方面 第二個是關於spark工具學習方面,各有兩個小時時間,制定一個下面一週的試學習計劃

3/2-3 hadoop spark 環境 學習計劃  ,hadoop權威指南學習

keyword:

  mapreduce  streaming

  hdfs(數據塊大小 namenode datanode 命令行接口 java api接口 ) (數據完整性 壓縮 序列化writable)

  YARN 資源管理系統 節點管理器 調度選項

3/3 晚 天然語言處理的英文課程徹底聽不懂,我先看下數學之美以及研一的天然語言處理怎麼個上法,再來以爲下一步,這幾天先看數學之美

3/5 等spark書到, 繼續o2o 瞭解廣告那個比賽, gbdt xgboost 學習

3/6 上午 gbdt xgboost

3/7 上午 機器學習 集成方面回顧  下午 spark 新書到了,學習下  晚上;nlp課程 回來後繼續比賽

這個o2o比賽現狀:目前代碼出了很大問題, 能夠去繼續調,可是效率不高,可能會花更多的時間

目前策略是:1.繼續看wepon的整理特徵後如何處理的,調整本身代碼  2.把他sql裏面的思想和特徵用pandas實現一遍  3.研究他是怎麼調參的 4.研究他是怎麼作模型融合的

3/8  上午:公式推導,xgboost論文  英語課準備六級怎麼複習 下午:spark 和比賽    nlp目前須要作的不夠,動力也不足,徹底的全新領域,進入困難,嘗試轉向 圖像方面 cs231n 3/9晚上開始學習,週末兩天得出具體的方案 xgboost後下一步具體的就定位深度學習的迴歸

3/9  上午看懂gbdt,最晚周天要開始看cs231n這門課, 下午:spark,也是周天結束基礎的應用, 晚上 軟件工程,和給人上課

3/10[D] 9點後繼續比賽 學習其餘特徵.; xgboost 調參 或spark學習  

3/11 新的一天,新的開始 今天要結束兩個東西 一個是xgboost   一個是o2o優惠券預測

一月

第三週  Back 找到本身的切入點 將來40天,安排20天的任務

幾個能夠考慮的點:算法(ML看看之前的計劃,而後複習,而且補足 ,NLP開始學習與爬蟲相關 ,CV開始學習 ) 數據挖掘實踐(比賽, 練習) Spark(瞭解spark如何使用,本身安裝,瞭解其算法的寫法) 其他的知識  春招實習生練習

週二:上午 好好作計劃  下午:NLP試學習  晚上:算法總結與下一步的計劃   下午什麼都沒幹,制定了個總的計劃,晚上總結完以前進度,肯定下一步計劃後,能夠玩遊戲

第一週,第二週 準備考試

第一階段還有六天1.2~1.7 18個小階段,

模式識別 一個上午,一個下午就能夠,準備好要背的,和要會的大的知識點 

數字圖像 三個小階段 上午 下午 晚上 分開

計算機網絡/ 算法 天天都有 

第二階段1.8 一天,模式識別  1.9 1.10 計算機網絡  1.11 兩個階段數字圖像  1個階段算法1.12  下午算法 

1.2星期二 上午準備模式識別, 下午計算機網絡  晚上算法

1.3星期三 下午 數字圖像  網絡 ,晚上 計算機網絡

1.4星期四 早上背:算法前四章內容,第五章排序集組合集  網絡:ARP簡答題, tcp狀態轉移,流量控制,擁塞控制, 上午算法 下午網絡 晚上算法

1.5星期五 上午網絡TCP所有,RAP, 算法 記憶 下午 模式識別 晚上 網絡

1.6星期六上午  下午 算法的第五六章   網絡 第六章 路由協議   

1.7星期天上午 模式識別(過一遍) 數字圖像過一遍 下午 算法 T(n)的計算 ,調度算法,分支限界法  晚上 網絡 rip 路由協議 最優前綴碼    最後回去前,把算法和網絡的東西都要從頭過一遍,知道啥應該準備,啥沒準備

1.8星期一 晚上考模式識別 上午 下午複習模式識別

1.9星期二 上午 網絡  下午 算法  晚上數字圖像

1.10 星期三 晚上考網絡 一天網絡

1.11 星期四  上午 數字圖像 下午 算法 晚上數字圖像

1.12星期五 上午數字圖像 晚上算法   下午看算法

相關文章
相關標籤/搜索