數據挖掘與R語言——第二章(預測海藻數量)

<p>1、首先介紹兩個很是給力的講 ggplot2 繪圖的博客:</p> <p><a title="http://www.cellyse.com/how_to_use_gggplot2_part2/#comments" href="http://www.cellyse.com/how_to_use_gggplot2_part1/#comments">http://www.cellyse.com/how_to_use_gggplot2_part1/#comments</a></p> <p><a title="http://www.cellyse.com/how_to_use_gggplot2_part2/#comments" href="http://www.cellyse.com/how_to_use_gggplot2_part2/#comments">http://www.cellyse.com/how_to_use_gggplot2_part2/#comments</a></p> <p><a title="http://blog.funature.net/tag/ggplot/" href="http://blog.funature.net/tag/ggplot/">http://blog.funature.net/tag/ggplot/</a></p> <p>2、代碼加註釋</p> <p>####安裝依賴包,並加載##### <br />if (require('DMwR') == 0) { <br />&#160;&#160;&#160; install.packages('DMwR') <br />&#160;&#160;&#160; <br />} <br />if (require('ggplot2') == 0) { <br />&#160;&#160;&#160; install.packages('Rcpp') <br />&#160;&#160;&#160; install.packages('ggplot2') <br />} <br />library('DMwR') <br />library('ggplot2')</p> <p>####數據可視化##### <br />View(head(algae)) <br />summary(algae) <br />##繪製箱線圖而且旋轉座標軸 <br />myp &lt;- ggplot(algae) <br />myp + geom_boxplot(aes(x = size, y = a1), horizontal = T) + coord_flip()</p> <p>####缺失值處理##### <br />##查找非缺失值行 <br />nrow(algae[complete.cases(algae), ]) <br />##查找每行的缺失值的個數 第二個參數 1 表示行 2 表示列(傳遞給後面的函數) <br />apply(algae, 2, function(x) sum(is.na(x))) <br />##缺失值處理1、用次數最多的那個數據填補缺失值 <br />#直接剔除缺失屬性比樣本個數的20%還要多的樣本 <br />dalgae &lt;- algae[-manyNAs(algae, 0.2), ] <br />#利用樣本的中心趨勢填充缺失值 <br />dalgae &lt;- centralImputation(algae) <br />##缺失值處理2、經過變量的相關關係填補缺失值 <br />#計算變量之間的相關關係 <br />cormatrix &lt;- cor(dalgae[, 4:18], use = &quot;complete.obs&quot;) <br />#更加直觀的查看 <br />symnum(cormatrix) <br />##缺失值處理2、經過樣本的類似度填補缺失值(第一步:必定要去量綱) <br />dalgae &lt;- algae[-manyNAs(algae, 0.2), ] <br />##考慮最近的十個樣本,加權平均 <br />dalgae &lt;- knnImputiation(dalgae, 10) <br />##考慮用中位數填補 <br />dalgae &lt;- knnImputiation(dalgae, 10, meth = &quot;media&quot;) </p>app

相關文章
相關標籤/搜索