下面列出了可用於數據挖掘的R包和函數的集合。其中一些不是專門爲了數據挖掘而開發,但數據挖掘過程當中這些包能幫咱們很多忙,因此也包含進來。html
一、聚類算法
經常使用的包: fpc,cluster,pvclust,mclust 基於劃分的方法: kmeans, pam, pamk, clara 基於層次的方法: hclust, pvclust, agnes, diana 基於模型的方法: mclust 基於密度的方法: dbscan 基於畫圖的方法: plotcluster, plot.hclust 基於驗證的方法: cluster.stats
二、分類dom
經常使用的包: rpart,party,randomForest,rpartOrdinal,tree,marginTree, maptree,survival 決策樹: rpart, ctree 隨機森林: cforest, randomForest 迴歸, Logistic迴歸, Poisson迴歸: glm, predict, residuals 生存分析: survfit, survdiff, coxph
三、關聯規則與頻繁項集函數
經常使用的包: arules:支持挖掘頻繁項集,最大頻繁項集,頻繁閉項目集和關聯規則 DRM:迴歸和分類數據的重複關聯模型 APRIORI算法,廣度RST算法:apriori, drm ECLAT算法: 採用等價類,RST深度搜索和集合的交集: eclat
四、序列模式post
經常使用的包: arulesSequences SPADE算法: cSPADE
五、時間序列rest
經常使用的包: timsac 時間序列構建函數: ts 成分分解: decomp, decompose, stl, tsr
六、統計code
經常使用的包: Base R, nlme 方差分析: aov, anova 密度分析: density 假設檢驗: t.test, prop.test, anova, aov 線性混合模型:lme 主成分分析和因子分析:princomp
七、圖表orm
條形圖: barplot 餅圖: pie 散點圖: dotchart 直方圖: hist 密度圖: densityplot 蠟燭圖, 箱形圖 boxplot QQ (quantile-quantile) 圖: qqnorm, qqplot, qqline Bi-variate plot: coplot 樹: rpart Parallel coordinates: parallel, paracoor, parcoord 熱圖, contour: contour, filled.contour 其餘圖: stripplot, sunflowerplot, interaction.plot, matplot, fourfoldplot, assocplot, mosaicplot 保存的圖表格式: pdf, postscript, win.metafile, jpeg, bmp, png
八、數據操做htm
缺失值:na.omit 變量標準化:scale 變量轉置:t 抽樣:sample 堆棧:stack, unstack 其餘:aggregate, merge, reshape
九、與數據挖掘軟件Weka作接口接口
RWeka: 經過這個接口,能夠在R中使用Weka的全部算法。 轉自:http://www.dataguru.cn/article-1440-1.html