[Pandas] 03 - DataFrame【讀入並處理表格】html
初步瞧:列屬性的大概樣子算法
屬性間:apply新添加一列網頁爬蟲
屬性內:窗口數據架構
[Scikit-learn] 4.3 Preprocessing data【基礎夯實】app
單個特徵:去量綱(若干方法)、規範化機器學習
特殊狀況:數據量不大、異常值較多、缺失值,特徵升維函數
去相關性:白化(下降數據的冗餘性)post
[Feature] Preprocessing tutorial【偉哥筆記】學習
網頁爬蟲:import urllib.requestui
網頁解析:from bs4 import BeautifulSoup
數據處理:缺失值、加標籤、去量綱
數據訓練:線性迴歸之相關性分析
Ref: Feature Preprocessing on Kaggle
好文章:特徵工程
(1)使用sklearn作單機特徵工程【特徵預處理】
(2)使用sklearn優雅地進行數據挖掘【特徵選擇,pipeline工程】
(3)誰動了個人特徵?——sklearn特徵轉換行爲全記錄【繼續改進】
本文主要是給出一個輪廓,具體仍是要實踐一套代碼。
下一步,可能就是學習復現一些kaggle萬能的模型,如此一來就差很少了。
數據和特徵決定了機器學習的上限,而模型和算法只是逼近這個上限而已。
找到最重要的特徵,找的全,找的準。
數據清洗,是針對數據:
(1) 特別不對勁的數據應該直接幹掉。
(2) 市場調查採樣不均衡也是個問題。
以後就是「正式篇章」:預處理,主要就是對特徵的操做,提升「機器學習的上限」。
韭言韭語
(1) 數據可能很是大,故先查看下類型,以及頭幾行數據;
(2) 進一步地,瞭解整體走勢。
」先頭部隊「 四步走,針對數據。
韭言韭語
(*) 這部分屬於」特徵處理「 部分,針對列屬性 (特徵)。
以上內容,集中整理在:[Feature] Preprocessing tutorial【偉哥筆記,注重實踐]】
集中整理在: [Feature] Compare the effect of different scalers【案例模板學習】
Goto: [Feature] Feature selection【詳解】
3.1 Filter
3.1.1 方差選擇法
3.1.2 相關係數法
3.1.3 卡方檢驗
3.1.4 互信息法
3.2 Wrapper
3.2.1 遞歸特徵消除法
3.3 Embedded
3.3.1 基於懲罰項的特徵選擇法
3.3.2 基於樹模型的特徵選擇法
類 | 所屬方式 | 說明 |
VarianceThreshold | Filter | 方差選擇法 |
SelectKBest | Filter | 可選關聯繫數、卡方校驗、最大信息係數做爲得分計算的方法 |
RFE | Wrapper | 遞歸地訓練基模型,將權值係數較小的特徵從特徵集合中消除 |
SelectFromModel | Embedded | 訓練基模型,選擇權值係數較高的特徵 |
4.1 主成分分析法(PCA)
4.2 線性判別分析法(LDA)
庫 | 類 | 說明 |
decomposition | PCA | 主成分分析法 |
lda | LDA | 線性判別分析法 |
韭言韭語
「先頭部隊」 四大基本操做,涉及到的庫有 urllib, bs4, numpy, pandas
(1) 數據採集 data collection
網頁爬蟲:import urllib.request
網頁解析:from bs4 import BeautifulSoup
(2) 數據分析 data previewing
數據初瞧。
(3) 數據清洗 data cleansing
去掉極端樣本。
(4 )數據採樣 data sampling
解決「採樣不均衡」問題。
數據挖掘一般包括數據採集,數據分析,特徵工程,訓練模型,模型評估等步驟。
接下來即是「特徵處理"的過程。
「transform方法」 主要用來對特徵進行轉換。從可利用信息的角度來講,轉換分爲無信息轉換和有信息轉換。
經過總結經常使用的轉換類,咱們獲得下表:
並行處理,流水線處理,自動化調參,持久化是使用sklearn優雅地進行數據挖掘的核心。
Ref: 使用sklearn優雅地進行數據挖掘【特徵選擇,pipeline工程】
Ref: 誰動了個人特徵?——sklearn特徵轉換行爲全記錄
兩篇閒散筆記,主要是能吃透這套代碼,必將受益不淺.
[Feature] Build pipeline【展現大概思路過程】
[Feature] Final exam: code analysis【代碼分析,架構思路不錯】
End.