2017 年 機器學習之數據挖據、數據分析,可視化,ML,DL,NLP等知識記錄和總結

       今天是2017年12月30日,2017年的年尾,2018年立刻就要到了,回顧2017過的確實很快,不知不覺就到年底了,再次開篇對2016.2017年的學習數據挖掘,機器學習方面的知識作一個總結,對本身所學的知識也作一個梳理,查漏補缺關於數據挖據、數據分析,可視化,ML,DL,NLP等。html

 

做者:csj
更新時間:2017.12.27python

email:59888745@qq.com算法

說明:因內容較多,會不斷更新 *學習總結;sql

 

2016.10 主要看的書 《Python3-廖雪峯》,《Python核心編程》
  經過這些書籍的學習,能掌握python經常使用的基本知識:編程

  1.python數據類型、判斷與循環流程,list,tuple,dict,map,filter,reduce等
  2.文件/數據讀寫、面向對象、第三方庫等;
       3.python高級特性等等;網絡

python學習總結-【原】

2016.11 主要看的書是關於數據獲取,scrapy等方面的知識,如《用python寫網路爬蟲》李斌譯;
  1.requests抓取與靜態網頁解析,bs4的使用; 
  2.user-agent模擬登錄與分佈式爬蟲;
  3.selenium與動態網站爬取
數據獲取,解析,存儲等知識的學習總結-【原】機器學習


2016.12 主要看的書是關於數據挖據&數據分析方面的知識.如 pandas,numpy,scipy
1.pandas數據統計與分析技能
2.用pandas完成機器學習數據預處理與特徵工程scrapy

pandas的學習總結-【原
numpy的學習總結-[原]
  scipy的學習總結-原

2017.01 主要看的書是關於數據可視化方面的知識.如 matplotlib,d3,process等數據可視化
1.好用的python可視化利器matplotlib
2.自帶各類數據擬合分析的可視化利器seaborn
matplotlib的學習總結【原】
  d3的學習總結
  process的學習總結分佈式


2017.02 主要看的書是關於Spark,hadoop,map-reduce大數據處理等方面的知識oop

Spark快速數據處理》 餘璜,張磊譯,《spark sql編程指南》 韓保禮 譯

Spark與大數據處理【原】 未完

 

2017.03-04--- 主要看的書是關於機器學習原理到實戰方面的書,如
《統計學習方法-李航》--介紹統計學經常使用的算法和模型;
《機器學習實戰-李博》--介紹機器學習經常使用算法及阿里巴巴PAI平臺使用的機器算法解決方案模型
《推薦系統實踐-項亮》--介紹推薦系統方面的知識。

  機器學習 周志華
  1.機器學習 基本概念,經常使用經典模型總結【原】
  2..機器學習流程、預處理、特徵工程實例總結
  3.機器學習算法特色總結
  4.人工智能,機器學習,深度學習,數據挖掘流程 介紹總結

項目:

        阿里天池 大航杯「智造揚中」電力AI大賽 的案例分析實現

        Kaggle 自行車租賃預測比賽項目分析實現

        京東2017 豬臉識別 項目分析實現

        百度PaddlePaddle AI大賽 項目分析實現


2017.05-06-- 主要學習是深度學習原理到實戰方面的知識,瞭解經常使用深度學習模型Tensorflow,caffe
  1.深度神經網絡、deep模型
  2.卷積神經網絡、
  3.循環神經網絡、

2017.07-08-- 主要學習的是天然語言處理方面的知識,瞭解經常使用NLP方面的知識如分詞,詞向量,詞雲,文本分類,jieba,gensim等

       0.NLP天然語言處理 jieba中文分詞,關鍵詞提取,詞性標註,NLP WordEmbedding的概念和實現

1.用機器學習方法完成中文文本分類
NB模型
SVM模型

     (數據清洗 + 特徵提取(tfidf,textrank) + 抽取有用的特徵,如對文本抽取,詞代模型,NB模型測試, 參數調優,交叉驗證(kf,分組),用不一樣的算法svm,tfidf模型測試;
輸出結果和分析,tfidf在多文本類別的分類效果不錯。

2.用Tensorflow深度學習作文本分類
CNN作文本分類
數據預處理
停用詞
構建數據集
神經網絡搭建
訓練和預測

3.LSTM/GRU文本分類 捕捉時序信息的長短時記憶神經網絡
詞袋模型
GRU文本分類


4.推薦系統

根據不一樣用戶的喜愛挖掘生成用戶畫像,爲每位用戶提供「千人千面」的個性化推薦內容,幫助傳媒、
電商等行業有效提高點擊率、轉化率及用戶粘性,極大地增長客戶的經營效益。

推薦系統主要功能:
1.多維度挖掘用戶長短時間興趣畫像,精準把脈用戶偏好訴求.
2.基於用戶行爲歷史數據挖掘多樣性的個性化推薦結果.
3.對用戶興趣和個性化需求進行精準預測.
4.主要解決兩個問題,一個是信息過載,一個是用戶需求的多樣性.

實現方法:
1. 類似度,經過用戶對物品的歷史行爲,例如評分、訪問、下單、收藏等等行爲,判斷用戶之間的類似狀況輸出推薦列表.
2. 組合推薦:基於用戶推薦(UserCF),物品推薦(ItemCF)和內容的推薦可能會達到比較好的效果.

     推薦系統簡介

 

2017.09-10-11-12 機器學習,深度學習,NLP等方面知識深化學習

相關文章
相關標籤/搜索