今天是2017年12月30日,2017年的年尾,2018年立刻就要到了,回顧2017過的確實很快,不知不覺就到年底了,再次開篇對2016.2017年的學習數據挖掘,機器學習方面的知識作一個總結,對本身所學的知識也作一個梳理,查漏補缺關於數據挖據、數據分析,可視化,ML,DL,NLP等。html
做者:csj
更新時間:2017.12.27python
email:59888745@qq.com算法
說明:因內容較多,會不斷更新 *學習總結;sql
2016.10 主要看的書 《Python3-廖雪峯》,《Python核心編程》
經過這些書籍的學習,能掌握python經常使用的基本知識:編程
1.python數據類型、判斷與循環流程,list,tuple,dict,map,filter,reduce等
2.文件/數據讀寫、面向對象、第三方庫等;
3.python高級特性等等;網絡
python學習總結-【原】
2016.11 主要看的書是關於數據獲取,scrapy等方面的知識,如《用python寫網路爬蟲》李斌譯;
1.requests抓取與靜態網頁解析,bs4的使用;
2.user-agent模擬登錄與分佈式爬蟲;
3.selenium與動態網站爬取
數據獲取,解析,存儲等知識的學習總結-【原】機器學習
2016.12 主要看的書是關於數據挖據&數據分析方面的知識.如 pandas,numpy,scipy
1.pandas數據統計與分析技能
2.用pandas完成機器學習數據預處理與特徵工程scrapy
pandas的學習總結-【原】
numpy的學習總結-[原]
scipy的學習總結-原
2017.01 主要看的書是關於數據可視化方面的知識.如 matplotlib,d3,process等數據可視化
1.好用的python可視化利器matplotlib
2.自帶各類數據擬合分析的可視化利器seaborn
matplotlib的學習總結【原】
d3的學習總結
process的學習總結分佈式
2017.02 主要看的書是關於Spark,hadoop,map-reduce大數據處理等方面的知識oop
《Spark快速數據處理》 餘璜,張磊譯,《spark sql編程指南》 韓保禮 譯
2017.03-04--- 主要看的書是關於機器學習原理到實戰方面的書,如
《統計學習方法-李航》--介紹統計學經常使用的算法和模型;
《機器學習實戰-李博》--介紹機器學習經常使用算法及阿里巴巴PAI平臺使用的機器算法解決方案模型
《推薦系統實踐-項亮》--介紹推薦系統方面的知識。
機器學習 周志華
1.機器學習 基本概念,經常使用經典模型總結【原】
2..機器學習流程、預處理、特徵工程實例總結
3.機器學習算法特色總結
4.人工智能,機器學習,深度學習,數據挖掘流程 介紹總結
項目:
京東2017 豬臉識別 項目分析實現
百度PaddlePaddle AI大賽 項目分析實現
2017.05-06-- 主要學習是深度學習原理到實戰方面的知識,瞭解經常使用深度學習模型Tensorflow,caffe
1.深度神經網絡、deep模型
2.卷積神經網絡、
3.循環神經網絡、
2017.07-08-- 主要學習的是天然語言處理方面的知識,瞭解經常使用NLP方面的知識如分詞,詞向量,詞雲,文本分類,jieba,gensim等
0.NLP天然語言處理 jieba中文分詞,關鍵詞提取,詞性標註,NLP WordEmbedding的概念和實現
1.用機器學習方法完成中文文本分類
NB模型
SVM模型
(數據清洗 + 特徵提取(tfidf,textrank) + 抽取有用的特徵,如對文本抽取,詞代模型,NB模型測試, 參數調優,交叉驗證(kf,分組),用不一樣的算法svm,tfidf模型測試;
輸出結果和分析,tfidf在多文本類別的分類效果不錯。
2.用Tensorflow深度學習作文本分類
CNN作文本分類
數據預處理
停用詞
構建數據集
神經網絡搭建
訓練和預測
3.LSTM/GRU文本分類 捕捉時序信息的長短時記憶神經網絡
詞袋模型
GRU文本分類
4.推薦系統
根據不一樣用戶的喜愛挖掘生成用戶畫像,爲每位用戶提供「千人千面」的個性化推薦內容,幫助傳媒、
電商等行業有效提高點擊率、轉化率及用戶粘性,極大地增長客戶的經營效益。
推薦系統主要功能:
1.多維度挖掘用戶長短時間興趣畫像,精準把脈用戶偏好訴求.
2.基於用戶行爲歷史數據挖掘多樣性的個性化推薦結果.
3.對用戶興趣和個性化需求進行精準預測.
4.主要解決兩個問題,一個是信息過載,一個是用戶需求的多樣性.
實現方法:
1. 類似度,經過用戶對物品的歷史行爲,例如評分、訪問、下單、收藏等等行爲,判斷用戶之間的類似狀況輸出推薦列表.
2. 組合推薦:基於用戶推薦(UserCF),物品推薦(ItemCF)和內容的推薦可能會達到比較好的效果.
2017.09-10-11-12 機器學習,深度學習,NLP等方面知識深化學習