使用SPSS進行分箱功能將連續數據離散化的步驟

「分箱法」相信學過統計學的小夥伴們都不會陌生,它的主要做用就在於對噪音數據進行剔除,同時將連續型數據進行離散處理。在模型分析開始前,咱們常常須要使用到分箱法來處理和清洗數據。html

做爲一款功能全面、專業性強的統計分析軟件,IBM SPSS Statistic一樣具有分箱功能,下面咱們一塊兒來經過一篇教程瞭解一下。url

圖1是咱們準備要分箱的數據,咱們將對年齡列進行分箱,按照每10歲爲一個標準進行分箱。spa

 

 
 
 

圖1:要分箱的數據.net

點擊「轉換」中的「可視分箱」,進入分箱設置界面。htm

 

 
 
 

圖2:可視分箱blog

將「年齡」拉入到「要分箱的變量」中,而後點擊「繼續」。教程

 

 
 
 

圖3:拉入要分箱的變量get

在圖4所示界面,咱們能夠看到要掃描的個案數共34個,其中最大的變量值爲67,最小爲22,也就是說要分箱的數據年齡段在22到67歲之間。io

咱們在「分箱化變量」中,填入「年齡段」,做爲一個以後新生成的變量,隨後點擊「生成分割點」按鈕。class

 

 
 
 

圖4:分箱化變量

按照咱們的分箱目的,咱們要每隔10歲分組一次,最小的年齡爲22歲,則咱們須要在第一個分割點位置填寫「20」,而後在寬度填寫「10」,此時點擊鍵盤Tap鍵,SPSS會自動生成分割點數的值爲「5」,如圖5所示。

這樣子SPSS會自動幫咱們將20到30、30到40、40到50、50到60、60到70的年齡段進行分組,一共5組。

 

 
 
 

圖5:生成分割點

點擊「應用」按鈕後,回到「可視分箱」界面中,咱們能夠在圖6紅框位置看到後續的分箱值,標籤欄默認是空值,咱們能夠進行自定義填寫,如設置20的分箱標籤爲2。

 

 
 
 

圖6:設置自定義標籤

最後點擊「肯定」按鈕,開始進行數據分箱,分箱後的新數據結果如圖7所示,生成了新的「年齡段」列,數據也很是正確地進行了分箱,如年齡爲27的那行數據,被正確地設置到了標籤爲2的分箱中。

 

 
 
 

圖7:分箱結果

以上就是使用IBM SPSS Statistic對演示數據中的年齡指標,按照每隔10歲的標準,進行分箱的所有教程,上述演示的是等距分箱,小夥伴也能夠本身動手在IBM SPSS Statistic中嘗試一下不等距分箱哦。

相關文章
相關標籤/搜索