統計軟件簡介與數據操做

1、SPSSpython

    SPSS(Statistical Product and Service Solutions),"統計產品與服務解決方案"軟件。最初軟件全稱爲"社會科學統計軟件包"(SolutionsStatistical Package for the Social Sciences),可是隨着SPSS產品服務領域的擴大和服務深度的增長,SPSS公司已於2000年正式將英文全稱更改成"統計產品與服務解決方案",標誌着SPSS的戰略方向正在作出重大調整。爲IBM公司推出的一系列用於統計學分析運算、數據挖掘、預測分析和決策支持任務的軟件產品及相關服務的總稱SPSS,有Windows和Mac OS X等版本。1984年SPSS總部首先推出了世界上第一個統計分析軟件微機版本SPSS/PC+,開創了SPSS微機系列產品的開發方向,極大地擴充了它的應用範圍,並使其能很快地應用於天然科學、技術科學、社會科學的各個領域。世界上許多有影響的報刊雜誌紛紛就SPSS的自動統計繪圖、數據的深刻分析、使用方便、功能齊全等方面給予了高度的評價。git

SPSS是世界上最先的統計分析軟件,由美國斯坦福大學的三位研究生Norman H. Nie、C. Hadlai (Tex) Hull 和 Dale H. Bent於1968年研究開發成功,同時成立了SPSS公司,並於1975年成立法人組織、在芝加哥組建了SPSS總部。2009年7月28日,IBM公司宣佈將用12億美圓現金收購統計分析軟件提供商SPSS公司。現在SPSS已出至版本22.0,並且改名爲IBM SPSS。迄今,SPSS公司已有40餘年的成長曆史。github

SPSS是世界上最先採用圖形菜單驅動界面的統計軟件,它最突出的特色就是操做界面極爲友好,輸出結果美觀漂亮。它將幾乎全部的功能都以統1、規範的界面展示出來,使用Windows的窗口方式展現各類管理和分析數據方法的功能,對話框展現出各類功能選擇項。用戶只要掌握必定的Windows操做技能,精通統計分析原理,就可使用該軟件爲特定的科研工做服務。SPSS採用相似EXCEL表格的方式輸入與管理數據,數據接口較爲通用,能方便的從其餘數據庫中讀入數據。其統計過程包括了經常使用的、較爲成熟的統計過程,徹底能夠知足非統計專業人士的工做須要。輸出結果十分美觀,存儲時則是專用的SPO格式,能夠轉存爲HTML格式和文本格式。對於熟悉老版本編程運行方式的用戶,SPSS還特別設計了語法生成窗口,用戶只需在菜單中選好各個選項,而後按"粘貼"按鈕就能夠自動生成標準的SPSS程序。極大的方便了中、高級用戶。算法

SPSS圖表製做SPSS圖表製做SPSS for Windows是一個組合式軟件包,它集數據錄入、整理、分析功能於一身。用戶能夠根據實際須要和計算機的功能選擇模塊,以下降對系統硬盤容量的要求,有利於該軟件的推廣應用。SPSS的基本功能包括數據管理、統計分析、圖表分析、輸出管理等等。SPSS統計分析過程包括描述性統計、均值比較、通常線性模型、相關分析、迴歸分析、對數線性模型、聚類分析、數據簡化、生存分析、時間序列分析、多重響應等幾大類,每類中又分好幾個統計過程,好比迴歸分析中又分線性迴歸分析、曲線估計、Logistic迴歸、Probit迴歸、加權估計、兩階段最小二乘法、非線性迴歸等多個統計過程,並且每一個過程當中又容許用戶選擇不一樣的方法及參數。SPSS也有專門的繪圖系統,能夠根據數據繪製各類圖形。數據庫

SPSS for Windows的分析結果清晰、直觀、易學易用,並且能夠直接讀取EXCEL及DBF數據文件,現已推廣到多種各類操做系統的計算機上,它和SAS、BMDP並稱爲國際上最有影響的三大統計軟件。在國際學術界有條不成文的規定,即在國際學術交流中,凡是用SPSS軟件完成的計算和統計分析,能夠沒必要說明算法,因而可知其影響之大和信譽之高。最新的21.0版採用DAA(Distributed Analysis Architecture,分佈式分析系統),全面適應互聯網,支持動態收集、分析數據和HTML格式報告。SPSS操做界面SPSS操做界面編程

SPSS輸出結果雖然漂亮,可是很難與通常辦公軟件如Office或是WPS2000直接兼容,如不能用Excel等經常使用表格處理軟件直接打開,只能採用拷貝、粘貼的方式加以交互。在撰寫調查報告時每每要用電子表格軟件及專業製圖軟件來從新繪製相關圖表,這已經遭到諸多統計學人士的批評;並且SPSS做爲三大綜合性統計軟件之一,其統計分析功能與另外兩個軟件即SAS和BMDP相比仍有必定欠缺。數組

雖然如此,SPSS for Windows因爲其操做簡單,已經在我國的社會科學、天然科學的各個領域發揮了巨大做用。該軟件還能夠應用於經濟學、數學、統計學、物流管理、生物學、心理學、地理學、醫療衛生、體育、農業、林業、商業等各個領域。網絡

2、R語言app

R是用於統計分析、繪圖的語言和操做環境。R是屬於GNU系統的一個自由、免費、源代碼開放的軟件,它是一個用於統計計算和統計製圖的優秀工具編程語言

R是統計領域普遍使用的誕生於1980年左右的S語言的一個分支。能夠認爲R是S語言的一種實現。而S語言是由AT&T貝爾實驗室開發的一種用來進行數據探索、統計分析和做圖的解釋型語言。最初S語言的實現版本主要是S-PLUS。S-PLUS是一個商業軟件,它基於S語言,並由MathSoft公司的統計科學部進一步完善。後來Auckland大學的Robert Gentleman和Ross Ihaka及其餘志願人員開發了一個R系統。由"R開發核心團隊"負責開發。 R是基於S語言的一個GNU項目,因此也能夠看成S語言的一種實現,一般用S語言編寫的代碼均可以不做修改的在R環境下運行。 R的語法是來自Scheme。R的使用與S-PLUS有不少相似之處,這兩種語言有必定的兼容性。S-PLUS的使用手冊,只要稍加修改就可做爲R的使用手冊。因此有人說:R,是S-PLUS的一個"克隆"。

可是請不要忘了:R是免費的。(R is free)

R語言源代碼託管在github,具體地址能夠看參考資料。

R語言的下載能夠經過cran的鏡像來查找,具體地址能夠看參考資料。

R語言有域名爲.cn的下載地址,其中一個由Datagurn,另外一個由中國科學技術大學提供的。

R語言Windows版,其中由兩個下載地點是Datagurn和USTC提供的。

R是一套由數據操做、計算和圖形展現功能整合而成的套件。包括:有效的數據存儲和處理功能,一套完整的數組(特別是矩陣)計算操做符,擁有完總體系的數據分析工具,爲數據分析和顯示提供的強大圖形功能,一套(源自S語言)完善、簡單、有效的編程語言(包括條件、循環、自定義函數、輸入輸出功能)。

3、stata

Stata 是一套提供其使用者數據分析、數據管理以及繪製專業圖表的完整及整合性統計軟件。它提供許許多多功能,包含線性混合模型、均衡重複反覆及多項式普羅比模式。用Stata繪製的統計圖形至關精美。

 

新版本的STATA採用最具親和力的窗口接口,使用者自行創建程序時,軟件能提供具備直接命令式的語法。Stata提供完整的使用手冊,包含統計樣本創建、解釋、模型與語法、文獻等超過一萬餘頁的出版品。

除此以外,Stata軟件能夠透過網絡實時更新天天的最新功能,更能夠得知世界各地的使用者對於STATA公司提出的問題與解決之道。使用者也能夠透過Stat軟件logo軟件logoa Journal得到許許多多的相關訊息以及書籍介紹等。另一個獲取龐大資源的管道就是Statalist,它是一個獨立的listserver,每個月交替提供使用者超過1000個訊息以及50個程序。

 

 

Stata的統計功能很強,除了傳統的統計分析方法外,還收集了近20年發展起來的新方法,如Cox比例風險迴歸,指數與Weibull迴歸,多類結果與有序結果的logistic迴歸,Poisson迴歸,負二項迴歸及廣義負二項迴歸,隨機效應模型等。具體說, Stata具備以下統計分析能力:

數值變量資料的通常分析:參數估計,t檢驗,單因素和多因素的方差分析,協方差分析,交互效應模型,平衡和非平衡設計,嵌套設計,隨機效應,多個均數的兩兩比較,缺項數據的處理,方差齊性檢驗,正態性檢驗,變量變換等。

分類資料的通常分析:參數估計,列聯表分析 ( 列聯繫數,確切機率 ) ,流行病學表格分析等。

等級資料的通常分析:秩變換,秩和檢驗,秩相關等

相關與迴歸分析:簡單相關,偏相關,典型相關,以及多達數十種的迴歸分析方法,如多元線性迴歸,逐步迴歸,加權迴歸,穩鍵迴歸,二階段迴歸,百分位數 ( 中位數 ) 迴歸,殘差分析、強影響點分析,曲線擬合,隨機效應的線性迴歸模型等。

其餘方法:質量控制,整羣抽樣的設計效率,診斷試驗評價, kappa等。

Stata的做圖模塊,主要提供以下八種基本圖形的製做 : 直方圖(histogram),條形圖(bar),百分條圖 (oneway),百分圓圖(pie),散點圖(two way),散點圖矩陣(matrix),星形圖(star),分位數圖。這些圖形的巧妙應用,能夠知足絕大多數用戶的統計做圖要求。在有些非繪圖命令中,也提供了專門繪製某種圖形的功能,如在生存分析中,提供了繪製生存曲線圖,迴歸分析中提供了殘差圖等。

Stata的矩陣運算功能

矩陣代數是多元統計分析的重要工具, Stata提供了多元統計分析中所需的矩陣基本運算,如矩陣的加、積、逆、 Cholesky分解、 Kronecker內積等;還提供了一些高級運算,如特徵根、特徵向量、奇異值分解等;在執行完某些統計分析命令後,還提供了一些系統矩陣,如估計係數向量、估計係數的協方差矩陣等。

Stata是一個統計分析軟件,但它也具備很強的程序語言功能,這給用戶提供了一個廣闊的開發應用的天地,用戶能夠充分發揮本身的聰明才智,熟練應用各類技巧,真正作到爲所欲爲。事實上,Stata的ado文件(高級統計部分)都是用Stata本身的語言編寫的。

Stata其統計分析能力遠遠超過了SPSS,在許多方面也超過了SAS!因爲Stata在分析時是將數據所有讀入內存,在計算所有完成後才和磁盤交換數據,所以計算速度極快(通常來講, SAS的運算速度要比SPSS至少快一個數量級,而Stata的某些模塊和執行一樣功能的SAS模塊比,其速度又比SAS快將近一個數量級!)Stata也是採用命令行方式來操做,但使用上遠比SAS簡單。其生存數據分析、縱向數據(重複測量數據)分析等模塊的功能甚至超過了SAS。用Stata繪製的統計圖形至關精美,頗有特點。

4、python

Python(英語發音:/ˈpaɪθən/), 是一種面向對象、解釋型計算機程序設計語言,由Guido van Rossum於1989年末發明,第一個公開發行版發行於1991年,Python 源代碼一樣遵循 GPL(GNU General Public License)協議。Python語法簡潔而清晰,具備豐富和強大的類庫。它常被暱稱爲膠水語言,可以把用其餘語言製做的各類模塊(尤爲是C/C++)很輕鬆地聯結在一塊兒。常見的一種應用情形是,使用Python快速生成程序的原型(有時甚至是程序的最終界面),而後對其中有特別要求的部分,用更合適的語言改寫,好比3D遊戲中的圖形渲染模塊,性能要求特別高,就能夠用C/C++重寫,然後封裝爲Python能夠調用的擴展類庫。須要注意的是在您使用擴展類庫時可能須要考慮平臺問題,某些可能不提供跨平臺的實現。

 

5、數據操做

1.產生一個新變量

以CH10迴歸人均食出爲例

求食品支出佔收入的比例

轉換→計算變量

得出新變量

 

2.給變量值排序

以CH9數學語文成績爲例

按語文成績從低到高

 

相關文章
相關標籤/搜索