Python調用R語言

網絡上常常看到有人問數據分析是學習Python好仍是R語言好,還有一些爭論Python好仍是R好的文章。每次看到這樣的文章我都會想到李艦和肖凱的《數據科學中的R語言》,書中一直強調,工具不分好壞,重要的是解決問題的思路,就算是簡單的excel,也能應付數據分析中的大部分問題。再者Python和R原本就沒有什麼好對比的,一門是計算機工程語言,一門是統計語言,只有將二者結合起來,才能發揮更大的威力,不是嗎,對於數據分析的人來講,難道不是兩樣都要掌握的嗎?html

rpy2是Python調用R程序的模塊,旨在方便Python調用R中的相關函數,而不須要先將數據寫入txt再傳給R來分析,從而能夠作到全流程自動化。在pandas 0.18的模塊中也添加了rpy2的支持,進而更方便溝通了Python和R的數據流轉,構建數據分析的生態系統。python

rpy2的安裝仍是比較麻煩的,試了不少方法,百度了不少網頁最終安裝成功,作些筆記備忘。python3.x

個人安裝環境是:網絡

  • win7_64bit
  • python3.5_64位,使用的是Anaconda發行版。Anaconda發行版集成了不少Python的有用的數據分析模塊,其使用界面和MATLAB很類似,用起來很方便,並且還很方便虛擬出不一樣版本的Python環境,對那些既想用python2.7,又想用python3.x的同窗來講是很好的選擇。
  • R使用的是Revolution R Open 3.2.3_64bit,這是Revolution R如今已經被微軟收購了,改成MRO。MRO和CRAN的R沒有什麼區別,只是改進了多進程並行計算的性能,比原生的R確實有必定的性能提高。固然須要MRO網站上對應的數學計算庫Math Library,這個在Revolution R Open的下載界面有。

1.下載並安裝MRO

下載並安裝MRO,安裝對應的並行數學計算庫(可選)。下載地址是: 
https://mran.revolutionanalytics.com/download/python2.7

2.下載安裝Anaconda

下載地址是: 
https://www.continuum.io/downloads函數

3.配置R的環境變量

這是比較重要的通常,不少安裝失敗的緣由就是沒有很好配置環境變量。 
1. 將R目錄添加至path環境變量 
path:D:\Program Files\Microsoft\MRO\R-3.2.3\bin\x64; 
2. 將R.dll添加至path環境變量 
path:D:\Program Files\Microsoft\MRO\R-3.2.3\bin\x64\R.dll; 
3. 設置R_HOME環境變量 
R_HOME:D:\Program Files\Microsoft\MRO\R-3.2.3 
4. 設置R_USER環境變量 
R_USER:Administrator 
R_USER就是你電腦的用戶名,若是沒有設置過用戶名就是Administrator,能夠經過cmd命令行輸入 net user查看。工具

4.下載非官方版本的rpy2

爲何要下載非官方版本的rpy2我也不知道,反正我使用pip install ryp2沒有成功,缺乏對應的編譯環境,百度出來的網頁不少都是說使用非官方版本的rpy2. 
下載地址是:http://www.lfd.uci.edu/~gohlke/pythonlibs/#rpy2  這是python下包的專用地址
須要下載版本和平臺都相對應的whl包,我下的是rpy2-2.9.4-cp36-cp36m-win_amd64.whl,而後使用 pip install rpy2-2.9.4-cp36-cp36m-win_amd64.whl安裝便可。性能

5.python調用R

參考 讓R與Python共舞 和 python中調用R學習

import rpy2.robjects as robjects
# 此時,有三種方法調用R對象
# 第一種
robjects.r['pi']
# 第二種
robjects.r('pi')
# 這種方法從某種程度上講是萬能的,由於能夠將任意大小和長度的R代碼寫成一個python字符串,以後經過robjects.r('Rcode')調用執行
第三種
robjects.r.pi
# 這種方法對於名稱中有「點號」的變量會出問題,好比data.frame/read.csv等,因此推薦使用第一種方法

 

# creat an R function
robjects.r('''
           f <- function(r){pi * r}
           ''')
robjects.r['f'](3)

# internal function in R
robjects.r['ls']()

# another internal function
l = robjects.r['letters']
len(l)
robjects.r['paste'](l, collapse = '-')

# an alternative way of getting 'paste' function in R
# eval the R code
coder = 'paste(%s, collapse = "-")' % (l.r_repr())
robjects.r(coder)

 

6.pandas調用R

具體參考 pandas官方文檔–rpy2 / R interface網站

7.pandas和R的函數對比

具體參考 pandas官方文檔–Comparison with R / R libraries 
列出了實現相同功能的pandas和R的代碼,頗有啓發性。 
同時也說明,有想法,用什麼工具實現都無所謂,糾結要選python仍是R確實是捨本逐末了。若是時間不夠,精通其中的一門語言,另外一門語言可以掌握簡單的使用,也就夠了。

之後有事時間再詳細寫寫pandas調用R的部分,以它們之間數據來回傳輸的原理和注意事項。

 我把下載的包放到了d盤的programdata

相關文章
相關標籤/搜索