Python與R的爭鋒：大數據初學者該怎樣選？

時間 2019-11-13

原文原文鏈接

在當下，人工智能的浪潮席捲而來。從AlphaGo、無人駕駛技術、人臉識別、語音對話，到商城推薦系統，金融業的風控，量化運營、用戶洞察、企業徵信、智能投顧等，人工智能的應用普遍滲透到各行各業，也讓數據科學家們供不該求。Python和R做爲機器學習的主流語言，受到了愈來愈多的關注。數據學習領域的新兵們常常不清楚如何在兩者之間作出抉擇，本文就語言特性與使用場景爲你們對比剖析。git

一．Python和R的概念與特性程序員

Python是一種面向對象、解釋型免費開源高級語言。它功能強大，有活躍的社區支持和各式各樣的類庫，同時具有簡潔、易讀以及可擴展等優勢，在近幾年成爲高人氣的編程語言。算法

Python的優點：數據庫

一、Python的使用場景很是多，不只和R同樣能夠用於統計分析，更普遍應用於系統編程、圖形處理、文本處理、數據庫編程、網絡編程、Web編程、網絡爬蟲等，很是適合那些想深刻鑽研數據分析或者應用統計技術的程序員。編程

二、目前主流的大數據和機器學習框架對Python都提供了很好的支持，好比Hadoop、Spark、Tensorflow；同時，Python也有着強大的社區支持，特別是近年來隨着人工智能的興起，愈來愈多的開發者活躍在Python的社區中。數組

三、Python做爲一種膠水語言，可以和其餘語言連結在一塊兒，好比你的統計分析部分能夠用R語言寫，而後封裝爲Python能夠調用的擴展類庫。網絡

R語言是一種用來進行數據探索、統計分析和做圖的解釋型語言，但更像一種數學計算的環境。它模塊豐富，爲數學計算提供了極爲方便的編程方式，特別是針對矩陣的計算。框架

R語言的優點：dom

一、R語言擁有許多優雅直觀的圖表，常見的數據可視化的工具包有：機器學習

· 交互式圖表rCharts、Plotly，交互時序圖dygraphs，交互樹狀圖TreeMap

· ggplot2-一個基於圖形語法的繪圖系統

· lattice-R語言格子圖形

· rbokeh-針對Bokeh的R語言接口

· RGL-使用了OpenGL的3D可視化

· Shiny-用於建立交互式應用和可視化的框架

· visNetwork-交互式網絡可視化

散點圖

時序圖

詞雲圖

二、擁有大量專門面向統計人員的實用功能和豐富的數學工具包。自帶base一R的基礎模塊、mle一極大似然估計模塊、ts一時間序列分析模塊、mva一多元統計分析模塊、survival一輩子存分析模塊等，同時用戶能夠靈活使用數組和矩陣的操做運算符，及一系列連貫而又完整的數據分析中間工具。

三、語言簡潔上手快，不須要明肯定義變量類型。好比下面簡簡單單三行代碼，就能定義一元線性迴歸，是否是很酷炫：

x <- 1:10
y <- x+rnorm(10, 0, 1)
fit <- lm(y ~ x)

同時，R語言對向量化的支持程度高，經過向量化運算，數據在計算過程當中先後不依賴，是一種高度並行計算的實現，也避免了許多循環結構的使用。

固然了，相比於Python它也存在着一些劣勢。好比內存管理問題，在大樣本的迴歸中，如使用不當就會出現內存不足的狀況，但目前spark也提供了對R的支持，開發者可使用sparkR進行大數據的計算處理。

二.Python和R在文本信息挖掘和時序分析方面的區別

Python和R都有很是強大的代碼庫，Python有PyPi，R有CRAN。但二者方向不一樣，Python使用的範圍更加普遍，涉及到方方面面；R更專一統計方面，但在數據量大時運行速度很慢。下面我針對數據分析中的兩種使用場景來比較Python和R：

1. 文本信息挖掘：

文本信息挖掘的應用很是普遍，例如根據網購評價、社交網站的推文或者新聞進行情感極性分析等。這裏咱們用例子分析比較一下。

Python有良好的程序包幫助我們進行分析。好比NLTK，以及專門針對中文的SnowNLP，包含了中文分詞、詞性標註、情感分析，文本分類、TextRank、TF-IDF等模塊。

在用Python作情感極性分析時，首先須要將句子分解爲單詞，這裏咱們可使用Python中jieba分詞，使用起來也很是簡單：

word=jieba.cut(m,cut_all=False)

而後操做特徵提取，能夠利用NLTK中的stopwords先去除停用詞。若是有須要，能夠對文本進行向量化處理，這裏咱們能夠採用Bag of Words，選擇TF-IDF進行基於權重的向量轉化，也可使用Word2Vec進行基於類似度的轉化。接下來，使用sklearn包中的pca進行降維：

pca=PCA(n_components=1)

newData=pca.fit_transform(data)

除了pca，還能夠選擇使用互信息或者信息熵等其餘方法。

以後，咱們進行分類算法模型訓練和模型評估，可使用樸素貝葉斯（NaiveBayes），決策樹（Decision Tree）等NLTK 自帶的機器學習方法。

使用R進行情感極性分析

首先須要對數據進行預處理，安裝Rwordseg/rJava（其中有很多坑）兩個包；

進行數據清理清除掉沒用的符號後，進行分詞：Rwordseg中的segmentCN方法能夠對中文進行分詞。固然，也可使用jiebaR；

接下來構建單詞-文檔-標籤數據集，去除停用詞；

建立文檔-詞項矩陣，能夠選擇TermDocumentMatrix，使用weightTfIdf方法獲得tf-idf矩陣；

最後用e1071包中的貝葉斯方法進行文本分類，或者能夠用RTextTools包中的其餘機器學習算法來完成分類，其中包含九種算法：BAGGING(ipred:bagging)：bagging集成分類

BOOSTING (caTools:LogitBoost)：Logit Boosting 集成分類

GLMNET(glmnet:glmnet)：基於最大似然的廣義線性迴歸

MAXENT(maxent:maxent)：最大熵模型

NNET(nnet:nnet) ：神經網絡

RF(randomForest:randomForest)：隨機森林

SLDA(ipred:slda)：scaled 線性判別分析

SVM(e1071:svm) ：支持向量機

TREE (tree:tree)：遞歸分類樹

2.時序分析：

時間序列分析是根據系統觀察獲得的時間序列數據，經過曲線擬合和參數估計來創建數學模型的理論和方法，一般用於金融領域、氣象預測、市場分析領域等。R語言擁有許多程序包可用於處理規則和不規則時間序列，於是更有優點。

Python進行時序分析的時經常使用ARIMA(p,d,q)模型，其中d指的是差分項，p和q分別表明自迴歸項和移動平均項。構建ARIMA模型使用最多的就是statsmodels模塊，該模塊能夠用來進行時間序列的差分，建模和模型的檢驗。這裏例舉一個週期性預測的例子：

下面是一組數據，表明美國某公交公司發佈的五十年中每一年的乘客相關數據（好比1950-2000）：

data = [9930, 9318, 9595, 9972, 6706, 5756, 8092, 9551, 8722, 9913, 10151, 7186, 5422, 5337, 10649, 10652, 9310, 11043, 6937, 5476, 8662, 8570, 8981, 8331, 8449, 5773, 5304, 8355, 9477, 9148, 9395, 10261, 7713, 6299, 9424,9795, 10069, 10602, 10427, 8095, 6707, 9767, 11136, 11812, 11006, 11528, 9329, 6818, 10719, 10683]

1).首先，使用pandas進行處理和存儲數據：

data=pd.Series(data)

2).而後須要對數據進行平穩性檢驗，通常利用單位根檢驗，經常使用的方法有ADF、DFGLS、PP等等：

Python中直接用ADF(data), DFGLS(data)就能夠得出pvalue的結果

3).序列平穩性是進行時間序列分析的前提條件,若是上一個步驟顯示結果不平穩，就須要對時間序列作平穩性處理，通常用差分法最多：

diff1 = data.diff(2)

其中diff（object）表示差分的階數，這裏咱們使用2階，固然你也能夠用1階、3階、4階等等

4).進行白噪聲檢驗：

value=acorr_ljungbox(data,lags=1)

5).如今，咱們的ARIMA(p,d,q)中的d=2，接下來咱們進行模型選擇。第一步是計算出p和q，首先檢查平穩時間序列的自相關圖和偏自相關圖，經過sm.graphics.tsa.plot_acf (data)和sm.graphics.tsa.plot_pacf(data)，而後經過係數狀況進行模型選擇，可供選擇的有AR,MA,ARMA,ARIMA。

6).模型訓練：model=sm.tsa.ARMA(data,(p,d,q)).fit()，此處用ARMA模型計算出p和q，從而訓練出模型。

用R來構建時間序列模型

R針對時間序列有各式各樣的工具包，好比：

library(xts)，library(timeSeires)，library(zoo)—時間基礎包

library(urca)--進行單位根檢驗

library(tseries)--arma模型

library(fUnitRoots)--進行單位根檢驗

library(FinTS)--調用其中的自迴歸檢驗函數

library(fGarch)--GARCH模型

library(nlme)--調用其中的gls函數

library(fArma)--進行擬合和檢驗

library(forecast)—arima建模