R語言和 Python —— 一個錯誤的分裂

最近有一些文章提出與年齡相關的問題:「嶄露頭角的年輕數據科學家們是學習R語言仍是Python更好?」html

答案彷佛都是「視狀況而定」,在現實中沒有必要在R和Python中作出選擇,由於你兩個都用獲得。推薦閱讀《Python3.0科學計算指南》。工具

它被稱爲RPy2:學習

http://rpy.sourceforge.net/rpy2/doc2.1/html/introduction.htmlspa

什麼是」數據科學」?

在談論RPy2以前,先來講一下「數據科學」,我要說的是「數據科學」是一個奇怪的詞。由於幾乎全部的科學都是「數據科學」。「無數據科學」則是徹底不一樣的領域:哲學。「數據科學」是一門經過系統觀察,對照實驗,貝葉斯推理的開放試驗理念的科學學科。.net

「數據科學」的目標是從數據中得出有效的統計推論。標籤「數據」是指數據用於作什麼並不重要,但這是錯誤的:它是難以且不可能作到科學的在沒有獲得數據的詳細信息,得去了解系統的弱點並生產出來,智能、靈敏的應對非理想好數據。htm

任何有趣的數據集至少有如下一些特性:缺失值,異常值和噪聲。缺失值:顧名思義就是缺失的值。異常值:離羣怪異的事件,因爲某種緣由或其餘的事件其值遠遠的超出合理界限。噪聲的是,從所測量的值的隨機(或非隨機的)影響的着結果的分佈。一個良好的測量分佈,異常值和噪聲在噪聲不一樣下通常有較容易理解的因素,而異常值一般是不多發生的,咱們不能經過分佈很好的理解。事件

對於處理這類事情R,Python和RPY的都是有用的工具。io

爲何R很是適合數據科學

R語言對有經驗的統計分析師來講是很是輕量級. 它由科學家創造,對絕大多數的數據管理任務來講都很是輕鬆。特別適合如下幾種數據管理任務:統計

相關文章
相關標籤/搜索