杭電第一學期

時間 2019-11-19

標籤第一學期简体版

原文原文鏈接

12月準備本身的學習與期末考試 17年最後一月

目標:好好的總結這半年接觸到的經典算法,看的時候參考工業界的實現如sklearn spark等的實現,重點是LR,GLM,NB,KNN; SVM,DT,ensemble(Tree Base:adaboost rf, gbdt,xgboost) ; unsupervised Learning 1. Matrix Decomposition(PCA ICA FA 字典學習,稀疏表示) 2. clustering: kmeans DBSCAN 前端

第三週和第四周準備期末考試 算法,數字圖像,模式識別,計算機網絡上午一個,下午一個python

最後一週

就像我之前同樣.作東西有始無終,最後又開始無意看書,不能一直這樣,這種狀態延續了好幾周了面試

如今弄清楚後面要複習的東西的提綱:算法

模式識別 :比較容易sql

計算機網絡shell

數字圖像編程

算法瀏覽器

週二: 上午,數字圖像(圖像加強) 下午:算法1點半開始(動態規劃剩餘部分,看基礎知識和兩三個經典題) 而後回溯法, 晚上:模式識別服務器

週三: 上午:計算機網絡進行到PPT的ARP,下次繼續ARP,網絡

而後再去看做業題和複習資料下午:算法回溯法

週四:上午模式識別三個半天解決這一課,這是第一個; 今天上午準備:大的知識點,難點攻克, 下一次在準備小的知識點下午:算法2-3-4題目下午晚上: 數字圖像 PPT和經典問題

週五:

第三週:準備期末考試晚上除了上課就是做比賽,總結思路

週一:計算機網絡算法

週二: 開會

週三: 網絡

週四:網絡tcp,三次握手,四次握手,數據包傳輸,晚上動態規劃所有完成,

週五:上午:網絡tcp剩下的東西 ,下午回溯法晚上,算法複習

第二週:上週後幾天又頹廢了這周從新計劃

主要任務:1.傳統算法複習應該開始 2.bayes KNN SVM這周要儘可能結束,還有後面樹算法,非監督的聚類和降維後幾個應該沒太多時間去作了 ,前兩個,週一就必須結束 3.DL在EEG等上的應用總結週一一天與週二上午都要作.這周應該不講,而後,天天下午都要作這個總結 4.哎,移動推薦算法算是太監了嗎.這樣很很差.不能這樣,可是又沒有辦法,要不就只能天天10點-12點去作這個,嗯,就這樣,10天 20小時,作成啥樣就啥樣,後幾天就開始看答案

星期一:全體,總結DL,作PPT,自編碼機 CNN LSTM DBN等應用,理出一個思路來,下午安排出下面一週的計劃,晚上模式識別課上把貝葉斯和KNN好好看看,而後回來再總結,10點前完成工做

星期二:上午DL CNN結束, 下午:貪心算法,KNN算法,準備開始SVM 晚上:開始看參考源碼

星期三:上午:KNN,svm開始晚上:參考源碼,看下別人的思路

星期四: 四級

星期五:四級

第一週

算法LR,GLM,NB,KNN

1.DL最前端的應用 2.DL在EEG和生理電信號的應用 3.DL在語音上關於情緒識別的應用

週一:上午 LR 下午:DL最前端應用晚上:上課的時候繼續來看上午的LR ,下課後競賽

週二週三:上午:LR 多分類,LinearModel user guide,GLM　　下午: 論文　　晚上: 兩週內結束移動推薦算法的比賽

週四:上午:貝葉斯分類與迴歸(GLM);Knn 分類迴歸下午晚上

11月份

可視化:seaborn庫的使用接觸了一點,可視化還有很長的路要走,可是不知道該怎麼走

**任務總覽：自編碼機流型學習深度學習總結降維機率圖 (採樣方法)SQL hadoop spark**

11月26 11月底,12月初新的一個月

周計劃1:這個月來試點新的計劃, 英語據說讀的能力,擬定天天6點起牀,11點往回走,12點睡覺,天天保持六小時睡眠,中午休息 ,晚飯後休息

英語具體計劃 0.,學發音,這周重點從音標開始 1.單詞記憶,中午,晚上各複習一次 2.聽VOA 讀VOA 錄下來,看有什麼問題 3.用老友記和老友記裏面的臺詞劇原本練習英語

周計劃2:天池,移動推薦算法從新開始,從Titanic上面學習經驗

周計劃3:算法相關,天天兩道算法題,雷打不動,完成不了,就11點半回去

周計劃4:讀閒書,閒讀書,

周計劃5:trick Sql這周趁天天的晚上10點-11點期間完成大部分工做 ; 算法做業,天天一道題-兩道題,在中午餐後,下午餐前飯後或者晚上 ;

週一:上午: 特徵工程理論相關的總結;梳理Evernote,得出下階段計劃　　下午:kaggle Titanic模型融合,最後作一些簡單的特徵工程　　晚上:Sql

週二:早上音標繼續,老友記第一集的朗誦;上午,算法開始回顧,迴歸與分類,各類算法的優劣點,必要的推導,回顧基礎下午: MBA課程開始試着學習晚上:sql習題開始作點, 算法兩道題

週三:上午:總結算法,繼續看書,找Blog,收集材料 [目前重點在於收集,以後是總結,再以後就是側重各個模型直接的對比]　　下午:從新開始移動推薦算法的比賽,總結思路,看前面的資料,從新開始　　晚上 :網絡(上課帶着筆記,大致理下網絡講了什麼,該學什麼,上課睡一會,算法動態規劃), Sql命令(上完網絡後), 算法兩道題(10點先後開始)

週四:上午: 算法總覽, 　　下午:繼續作base model　　晚上:(主任務待定)動態規劃, sql 前7章總結,關鍵詞 ;

11月20日第四周:

反省狀態,一直起起落落,在墮落與懊惱中循環,遊戲在安裝與卸載中往復,這周要緊張起來,找回狀態,把手裏的任務都完成,再去尋找新的任務點11

數字圖像兩次做業, 算法所有前面的課程與做業, 網絡複習

週一:上午:集成學習 ,今天必須完成總結然而並無完成,晚上繼續補上; 下午: kaggle houseprice , 繼續阿里天池大數據的比賽, 從今天開始天天提交一次,本身學習的過程就是想着去填一個坑,而後又發現不少新的坑,有的時候還能記得最初的目標,大部分時間就在坑裏出不來了.樂此不疲, 回去弄好houseprice問題,兩個問題同時進行 ; 晚上孔博的課程 ; 上課回來,houseprice 與集成學習的理論學習

週二:上午:集成學習,模型融合 ; 開會,整理印象筆記裏面的東西 ; 晚上繼續競賽, 圖像的做業與複習計劃; 可視化,pandas文檔,

讀書計劃: 原則是天天除了固定的兩大任務,要天天同時讀兩本書,

目前階段:數據天才與 python sql 後面之後慢慢補的(hadoop 爬蟲 shell Excel 分佈式 )

週三:adaboost推導過程,與gdbt學習,明天爭取完成 ,adaboost推導跳過了,gdbt部分看完了; 下午:繼續略讀圖書,完善kaggle Titanic比賽, 瞭解推薦系統,準備下一步開始天池的比賽

晚上繼續下午工做,爭取將準確率提高到80%,結束這個部分

週四:上午:bagging 與 rf 集成學習應該告一段落, 加上模型融合等補充; Titanic競賽今天結束,參考全部資料列出後面能夠優化的方法並實現; 晚上算法第一二章複習,結合算法導論與算法第四版; 額外學習sql命令,sklearn Document

週五:上午: 集成學習類算法落地,sklearn實現的細節, 各個參數的意義,如何調參,如何應用,在何等狀況下會好用,考慮單個模型調參與 ; 下午:特徵工程,依據兩個帖子整理數據的特徵, 多個模型融合的問題來提升準確率;

週末:週六上: 回顧筆記之前寫到的各類算法的補充和拓展綱要,複習記憶 ,整理瀏覽器書籤,印象筆記

週日下:清理標籤,繼續週六工做,給出下週的計劃綱要,數字圖像處理的做業

第三週:LSTM應用, 數據挖掘 MLP CNN RNN LSTM 公式推導

11月13號總結RNN LSTM

11月14號; 下一階段 ICA,流行學習,LSTM論文晚上:數據挖掘競賽與題目,書籍

11月15號:上午算法ICA, LSTM論文 ; 下午:數據挖掘競賽晚上:流型學習?

11月16號:上午ICA結束,瞭解流行學習,下午折騰競賽

11月17號:上午:集合學習 ;下午競賽

週末:比賽,集成學習,算法做業

第二週: ppca,ica,因子模型,自編碼機 CNN,RNN總結週末ppt; 流型學習

11月6號: 回顧pPCA 而後因子分析模型, PPCA,ICA 串聯 ; 自編碼機開頭 ; 晚上算法

11月7號:自編碼機算法回顧總結;

11月8號:上午:自編碼器原理學習,筆記總結,分類算法優化 ; 晚上動態規劃 ; 下午 MLP,CNN rnn總結 ppt ;

11月9號:上午CNN,ppt總結 ; 競賽 ; 機率圖深度生成模型思路總結

第一週： 高斯判別分析和高斯混合模型與EM 最小平方法和邏輯迴歸到多分類推廣

10月30號：PCA推導完成，ICA 學習與推導；深度學習與機率圖的概述）(寫了一半)；寫天池大數據的報告(還沒開始) ；

10月31號： PCA應用 SVD 線性代數回頭補充(二次型,對角化等) ICA LDA 流型學習自編碼機; 梳理迴歸與分類 ; 花時間看看那篇crcv

11月1號: LDA ICA 繼續; 瞭解自編碼機; RNN LSTM 知識總結;

11月4號: 線性代數自編碼機 ;

11月5號: 下午:高斯混合,高斯判別,EM,ppca求解 ; 晚上前:算法課補充; 晚上後:比賽 ; 看論文

10月份

10月23號這一週，，

週一。kaggle Fisher開始作，預計這一週；深度學習繼續學習；機器學習方面：機率圖；連續潛在變量，PCA；AdaBoost，GBDT，隨機森林；學習下Keras，看懂kaggle demo；

週二。開會

週三。上午，特種工程，降維；晚上網絡工程；

週四。點1：集成學習方法；點2：降維之 PCA、t-SNE 和自編碼器，點3：機率圖理論; （理論基礎，一個點一個點的來攻破）

晚上，張志華的機器學習；機器學習應用工程；

斯坦福CS231n Spring 2017開放所有課程視頻（分享自知乎網）

https://zhuanlan.zhihu.com/p/28488268?

深刻淺出：GAN原理與應用入門介紹（分享自知乎網）

https://zhuanlan.zhihu.com/p/28731033?utm_source=qq&utm_medium=social

週五。集成學習已看完，boost與bagging 進一步加深了了解，可是仍是不能說懂；

週末。週日，

1.總結深度學習各個技術的應用，PCA，ICA，自編碼機學習

2.推薦系統學習

3.天池大數據查找資料

4.爬蟲？？？

10月16號這一週

CV 方面深刻學習？

http://blog.csdn.net/v_july_v/article/details/52810219

http://blog.csdn.net/v_july_v/article/details/71598551

週一：上午：CNN ，RNN，LSTM 總結；結合論文和書；下午：重點放在應用與必須的數據科學理論；1.最優化（線搜索方面有些一知半懂，沒去聽課，感受壓力很大）；試試kaggle 與其餘學習的路線；信號與系統，數字信號處理的學習；

週二：CNN總結，kaggle圖像的競賽；下午學習算法；晚上：張志華機器學習導論+信號與系統

週三：CNN論文，kaggle開始作，

10月9號這一週

國慶結束，師兄迴歸，學期正式開始

7.8號週末在實驗室，準備一下，開始新的一週 1.TensorFlow CNN 原理與實現 2.上週課程總結和梳理 3.瀏覽器收藏梳理

週一：上午： LeetCode，論文閱讀，深度學習RNN 【tensorflow 的可視化，tensorflow的加速】深度學習如何學習，如何應用，有什麼好的開源項目中午：blog 下午：幾個點（SVM數學推導求最優解拉格朗日 KTT，logistic 極大似然推導），深度學習RNN 晚上 PR，貝葉斯

週二：上午：RNN。lstm應用實現讀論文。　　下午：傳統深度學習最後一部分，解決昨天留下的問題 + 卷積網絡在於圖像等領域的應用， RNN LSTM在於NLP領域的應用，上午沒有時間讀論文，下午讀昨天的論文

9月份

最後一段時間，1.TensorFlow 與深度學習進度要快點　　2.瞭解關於腦電情緒識別在時序信號，深度學習等方面的應用

9月25這一週

1.ng深度學習課程加快進度，儘可能保證兩天一週的課程，一天學習，一天作做業

2.TensorFlow 兩天一章

3.論文，天天保證有時間讀論文，總結

週一，1/5 深度學習完結 TensorFlow 卷積前面內容完結晚上機器學習，計劃下一階段如何學習下午作好論文計劃

週二，擬製定了完善的計劃和時間表，但願之後可以比較嚴格的按照這個執行，英語流利說與單詞記憶；上午找論文，讀論文；微專業課程；mnist手寫字體庫的繼續學習；下午的編程實踐，制定目標；肯定這周的kaggle題目

週三，單詞繼續，上午讀論文，帶着書去上課，TensorFlow 卷積網絡，深度學習；下午實現mnist；完成二.1課程做業；晚上。上課

週四，上午兩小時論文，ang課程，下午優化mnist，卷積網絡，準備kaggle和學習語言的事情，

週五，昨天的事情都沒能作，今天繼續昨天的事情，計劃下之後的路線問題；

路線：下面一個月以深度學習爲主，包括cnn，rnn等網絡，基本可以應用；傳統機器學習方面放緩，認真聽課，找出本身之後應該增強的點；

PS： hadoop spark 等工具；計算機基礎知識；算法數據結構Leetcode；機器學習理論基礎；機器學習項目實踐；

週日10月1：今天沒有出去玩，留在了實驗室，心中仍是有不少的迷茫。今天是週日，用來把前面這一週沒有完成的都弄完吧。

面試題一些例子：

用Map Reduce implement矩陣乘法
NLP相關的encoding問題 (CBOW vs Skipgram)
不一樣的activation function的pros/cons
Gradient Boosting 相關問題
Random Forest 相關問題
SVM的Gaussian Kernel 的 dimension
用Regex分析文本
如何用python/R 讀取JSON, 而且洗數據
用C++ implement Monte Carlo
coding: 用DFS走迷宮
- 用過哪些DL的library呀?
- 如今的DL 的state of art model有哪些呀?
- 若是如理diminishing gradient的問題呀?
- 若是同時處理文本文檔+圖片呀?
- 若是防止overfitting呀?
- 如何pre-train model呀?
- 可否本身在服務器上用distributed computing部署一個現有的model 呀?
面試中遇到的機器學習算法主要有線性迴歸、樸素貝葉斯、決策樹、GDBT、隨機森林、Adaboost、邏輯迴歸（和Softmax）、SVM、神經網絡和卷積神經網絡。遇到不少次讓寫邏輯迴歸的極大似然估計的推導。SVM會問思想，我SVM掌握的太少答的很差。神經網絡會問隨機梯度降低和反向傳播，要寫出式子來的。卷積神經網絡就遇到過一次，當時不知道後來上網學習了一下挺有意思的。損失函數、過擬合、算法的優缺點是常常問到的點，另外遇到的其餘問題有這麼幾個：機器學習算法中哪些是迴歸算法哪些是分類的。他們的產品要作用戶流失預測需要提取哪些特徵的。其餘我還遇到過倒排索引、推薦算法之類的問題。