最初軟件全稱爲"社會科學統計軟件包"(SolutionsStatistical Package for the Social Sciences),可是隨着SPSS產品服務領域的擴大和服務深度的增長,SPSS公司已於2000年正式將英文全稱更改成"統計產品與服務解決方案",標誌着SPSS的戰略方向正在作出重大調整。爲IBM公司推出的一系列用於統計學分析運算、數據挖掘、預測分析和決策支持任務的軟件產品及相關服務的總稱SPSS,有Windows和Mac OS X等版本。html
1984年SPSS總部首先推出了世界上第一個統計分析軟件微機版本SPSS/PC+,開創了SPSS微機系列產品的開發方向,極大地擴充了它的應用範圍,並使其能很快地應用於天然科學、技術科學、社會科學的各個領域。世界上許多有影響的報刊雜誌紛紛就SPSS的自動統計繪圖、數據的深刻分析、使用方便、功能齊全等方面給予了高度的評價。算法
在10版之後,SPSS的每一個新增版本都會對數據管理功能做一些改進,以使用戶的使用更爲方便。13版中的改進可能主要有如下幾個方面:數據庫
1)超長變量名:在12版中,變量名已經最多能夠爲64個字符長度,13版中可能還要大大放寬這一限制,以達到對當今各類複雜數據倉庫更好的兼容性。編程
2)改進的Autorecode過程:該過程將可使用自動編碼模版,從而用戶能夠按自定義的順序,而不是默認的ASCII碼順序進行變量值的重編碼。另外,Autorecode過程將能夠同時對多個變量進行重編碼,以提升分析效率。數組
3)改進的日期/時間函數:本次的改進將集中在使得兩個日期/時間差值的計算,以及對日期變量值的增減更爲容易上。app
從10版起,對數據和結果的圖表呈現功能一直是SPSS改進的重點。在16版中,SPSS推出了全新的常規圖功能,報表功能也達到了比較完善的地步。13版將針對使用中出現的一些問題,以及用戶的需求對圖表功能做進一步的改善。編程語言
1)統計圖:在通過一年的使用後,新的常規圖操做界面已基本完善,本次的改進除使得操做更爲便捷外,還突出了兩個重點。首先在常規圖中引入更多的交互圖功能,如圖組(Paneled charts),帶偏差線的分類圖形如偏差線條圖和線圖,三維效果的簡單、堆積和分段餅圖等。其次是引入幾種新的圖形,已知的有人口金字塔和點密度圖兩種。函數
2)統計表:幾乎所有過程的輸出都將會棄用文本,改成更美觀的樞軸表。並且樞軸表的表現和易用性會獲得進一步的提升,並加入了一些新的功能,如能夠對統計量進行排序、在表格中合併/省略若干小類的輸出等。此外,樞軸表將能夠被直接導出到PowerPoint中,這些無疑都方便了用戶的使用。工具
Complex Samples是12版中新增的模塊,用於實現複雜抽樣的設計方案,以及對相應的數據進行描述。但當時並未提供統計建模功能。在13版中,這將會有很大的改觀。通常線形模型將會被完整地引入複雜抽樣模塊中,以實現對複雜抽樣研究中各類連續性變量的建模預測功能,例如對市場調研中的客戶滿意度數據進行建模。對於分類數據,Logistic迴歸則將會被系統的引入。這樣,對於一個任意複雜的抽樣研究,如多階段分層整羣抽樣,或者更復雜的PPS抽樣,研究者均可以在該模塊中輕鬆的實現從抽樣設計、統計描述到複雜統計建模以發現影響因素的整個分析過程,方差分析模型、線形迴歸模型、Logistic迴歸模型等複雜的統計模型均可以加以使用,而操做方式將會和徹底隨機抽樣數據的分析操做沒有什麼差異。能夠預見,該模塊的推出將會大大促進國內對複雜抽樣時統計推斷模型的正確應用。性能
這個模塊實際上就是將之前單獨發行的SPSS AnswerTree軟件整合進了SPSS平臺。筆者幾年前在本身的網站上介紹SPSS 11的新功能時,曾經很尖銳地指出SPSS的產品線過於分散,應當把各類功能較單一的小軟件,如AnswerTree、Sample Power等整合到SPSS等幾個平臺上去。看來SPSS公司也意識到了這一點,而AnswerTree就是在此背景下第一個被完全整合的產品。
Classification Tree模塊基於數據挖掘中發展起來的樹結構模型對分類變量或連續變量進行預測,能夠方便、快速的對樣本進行細分,而不須要用戶有太多的統計專業知識。在市場細分和數據挖掘中有較普遍的應用。已知該模塊提供了CHAID、Exhaustive CHAID和C&RT三種算法,在AnswerTree中提供的QUEST算法尚不能確定是否會被歸入。
爲了方便新老用戶的使用,Tree模塊在操做方式上再也不使用AnswerTree中的嚮導方式,而是SPSS近兩年開始採用的交互式選項卡對話框。可是,整個選項卡界面的內容其實是和原先的嚮導基本一致的,另外,模型的結果輸出仍然是AnswerTree中標準的樹形圖,這使得AnswerTree的老用戶基本上不須要專門的學習就可以懂得如何使用該模塊。
因爲樹結構模型的方法體系和傳統的統計方法徹底不一樣,貿然引入可能會引發讀者統計方法體系的混亂。爲此,本次編寫的高級教程並未介紹該模塊,而將在高級教程的下一個版本,以及關於市場細分問題的教材中對其加以詳細介紹。
隨着自身產品線的不斷完善,SPSS公司的產品體系已經日益完整,而不一樣產品間的互補和兼容性也在不斷加以改進。在13版中,SPSS軟件已經能夠和其餘一些最新的產品很好的整合在一塊兒,造成更爲完整的解決方案。例如,SPSS、SPSS Data Entry和新發布的SPSS Text Analysis for Surveys一塊兒就造成了對調查研究的完整解決方案。而新增的SPSS Classification Trees模塊將使得SPSS軟件自己就可以針對市場細分工做提供更爲完整的方法體系。
Stata 是一套提供其使用者數據分析、數據管理以及繪製專業圖表的完整及整合性統計軟件。它提供許許多多功能,包含線性混合模型、均衡重複反覆及多項式普羅比模式。用Stata繪製的統計圖形至關精美。
統計功能
Stata的統計功能很強,除了傳統的統計分析方法外,還收集了近20年發展起來的新方法,如Cox比例風險迴歸,指數與Weibull迴歸,多類結果與有序結果的logistic迴歸,Poisson迴歸,負二項迴歸及廣義負二項迴歸,隨機效應模型等。具體說, Stata具備以下統計分析能力:
數值變量資料的通常分析:參數估計,t檢驗,單因素和多因素的方差分析,協方差分析,交互效應模型,平衡和非平衡設計,嵌套設計,隨機效應,多個均數的兩兩比較,缺項數據的處理,方差齊性檢驗,正態性檢驗,變量變換等。
分類資料的通常分析:參數估計,列聯表分析 ( 列聯繫數,確切機率 ) ,流行病學表格分析等。
等級資料的通常分析:秩變換,秩和檢驗,秩相關等
相關與迴歸分析:簡單相關,偏相關,典型相關,以及多達數十種的迴歸分析方法,如多元線性迴歸,逐步迴歸,加權迴歸,穩鍵迴歸,二階段迴歸,百分位數 ( 中位數 ) 迴歸,殘差分析、強影響點分析,曲線擬合,隨機效應的線性迴歸模型等。
其餘方法:質量控制,整羣抽樣的設計效率,診斷試驗評價, kappa等。
R語言
R是用於統計分析、繪圖的語言和操做環境。R是屬於GNU系統的一個自由、免費、源代碼開放的軟件,它是一個用於統計計算和統計製圖的優秀工具。
R是一套完整的數據處理、計算和製圖軟件系統。其功能包括:數據存儲和處理系統;數組運算工具(其向量、矩陣運算方面功能尤爲強大);完整連貫的統計分析工具;優秀的統計製圖功能;簡便而強大的編程語言:可操縱數據的輸入和輸出,可實現分支、循環,用戶可自定義功能貝爾實驗室。
與其說R是一種統計軟件,還不如說R是一種數學計算的環境,由於R並非僅僅提供若干統計程序、使用者只需指定數據庫和若干參數即可進行一個統計分析。R的思想是:它能夠提供一些集成的統計工具,但更大量的是它提供各類數學計算、統計計算的函數,從而使使用者能靈活機動的進行數據分析,甚至創造出符合須要的新的統計計算方法。
該語言的語法表面上相似 C,但在語義上是函數設計語言(functional programming language)的變種而且和Lisp以及APL有很強的兼容性。特別的是,它容許在"語言上計算"(computing on the language)。這使得它能夠把表達式做爲函數的輸入參數,而這種作法對統計模擬和繪圖很是有用。
R是一個免費的自由軟件,它有UNIX、LINUX、MacOS和WINDOWS版本,都是能夠免費下載和使用的。在那兒能夠下載到R的安裝程序、各類外掛程序和文檔。在R的安裝程序中只包含了8個基礎模塊,其餘外在模塊能夠經過CRAN得到。
R的原代碼可自由下載使用,亦有已編譯的執行檔版本能夠下載,可在多種平臺下運行,包括UNIX(也包括FreeBSD和Linux)、Windows和MacOS。 R主要是以命令行操做,同時有人開發了幾種圖形用戶界面。
R內含多種統計學及數字分析功能。由於S的血緣,R比其餘統計學或數學專用的編程語言有更強的物件導向(面向對象程序設計)功能。
R的另外一強項是繪圖功能,製圖具備印刷的素質,也可加入數學符號。
雖然R主要用於統計分析或者開發統計相關的軟體,但也有人用做矩陣計算。其分析速度可媲美GNU Octave甚至商業軟件MATLAB。
R的功能可以經過由用戶撰寫的套件加強。增長的功能有特殊的統計技術、繪圖功能,以及編程界面和數據輸出/輸入功能。這些軟件包是由R語言、LaTeX、Java及最經常使用C語言和Fortran撰寫。下載的執行檔版本會連同一批覈心功能的軟件包,而根據CRAN紀錄有過千種不一樣的軟件包。其中有幾款較爲經常使用,例如用於經濟計量、財經分析、人文科學研究以及人工智能。
Python
Python(英語發音:/ˈpaɪθən/), 是一種面向對象、解釋型計算機程序設計語言,由Guido van Rossum於1989年末發明,第一個公開發行版發行於1991年,Python 源代碼一樣遵循 GPL(GNU General Public License)協議。Python語法簡潔而清晰,具備豐富和強大的類庫。它常被暱稱爲膠水語言,可以把用其餘語言製做的各類模塊(尤爲是C/C++)很輕鬆地聯結在一塊兒。常見的一種應用情形是,使用Python快速生成程序的原型(有時甚至是程序的最終界面),而後對其中有特別要求的部分,用更合適的語言改寫,好比3D遊戲中的圖形渲染模塊,性能要求特別高,就能夠用C/C++重寫,然後封裝爲Python能夠調用的擴展類庫。須要注意的是在您使用擴展類庫時可能須要考慮平臺問題,某些可能不提供跨平臺的實現。
Python 是一種不受侷限、跨平臺的開源編程語言,它功能強大且簡單易學。於是獲得了普遍應用和支持。
ArcGIS 9.0 社區中引入了 Python。此後,Python 被視爲可供地理處理用戶選擇的腳本語言並得以不斷髮展。每一個版本都進一步加強了 Python 體驗,從而爲您提供更多的功能以及更豐富、更友好的 Python 體驗。
ESRI 已將 Python 徹底歸入 ArcGIS 中,並將其視爲可知足咱們用戶社區需求的語言。下面僅介紹 Python 的部分優點[1]:
Python 已延伸到 ArcGIS 中,成爲了一種用於進行數據分析、數據轉換、數據管理和地圖自動化的語言,於是有助於提升工做效率。
數據操做