2021年春節將至,去年受到新冠肺炎的影響,你們都只能宅在家裏不能走訪親戚,與好友聚會。在全國人民衆志成城的努力下,疫情在我國獲得了有效的控制,你們都盼望着今年能回家過個好年,但近幾天來各地又零星出現了新冠肺炎病例,隨着過年的時間一每天將近,人們也愈來愈擔心疫情會不會隨着春運及走訪親戚出現反彈。而人口的流動彙集,客觀上加大了疫情傳播的風險和防控的難度。爲了進一步掌握人員流動彙集動向,作好緊急疫情的防控工做,針對疫情相關的重點區域開展人羣彙集密度預測就顯得尤其重要。web
本案例基於思邁特軟件的數據挖掘平臺Smartbi Mining進行建模,使用邏輯迴歸分類算法對重點區域的人羣密度進行預測,其目標以下:算法
(1)藉助重點區域歷史的人羣密度,統計人流量指數和遷徙指數特徵;ide
(2)創建模型預測重點區域將來的人羣密度,掌握人員流動彙集的動向;測試
(3)針對人羣密度較大的區域,作好緊急疫情防控工做。3d
本案例重點區域人羣密度預測的整體流程如圖1-1所示。it
圖1-1數據挖掘
(1)獲取數據,數據來源於賽題重點區域人羣密度預測數據;class
(2)對獲取的數據進行基本的處理操做,分組統計人流量指數和遷徙指數,做爲模型的輸入特徵;bfc
(3)根據統計特徵數據創建重點區域人羣密度預測模型;軟件
(4)對模型結果進行評估。
本案例共有3個數據集,爲去年疫情期間20200117-20200215人流相關的數據爲例,如下是每一個數據集的字段說明。
表2-1 重點區域人流量狀況表
表2-2 重點區域信息表
表2-3 北京市遷徙指數表
數聽說明:
●重點區域人流量狀況表中,人流量指數指與某天某小時內該區域內出現的人數成正比。A區域的人流量指數越大,表示A區域出現的人越多,反之越少。
●北京市遷徙指數表中,遷徙指數指與某天北京市與其餘城市之間的人羣流動量成正比。A城市到B城市的遷徙指數越大,表示從A城市遷徙到B城市的人數越多,反之越少。
2.1.數據接入
在實驗中添加數據源節點,將上述3張表的數據讀取進來,部分數據如圖2-1所示。
圖2-1
爲了便於理解字段含義,讓字段看起來更加直觀,使用元數據編輯節點,添加中文字段別名,更改後的輸出如圖2-2所示,流程圖如圖2-3所示。
圖2-2
圖2-3
2.2.數據探索
本案例的探索分析是對數據進行缺失值分析與數據分佈分析,分析出數據的缺失和分佈狀況。經過對數據觀察發現重點區域人流量狀況表和北京市遷徙指數表中日期時間字段格式不一致(如圖2-4和圖2-5),會對錶合併有影響,所以需統一兩張表的日期時間格式。
圖2-4 重點區域人流量狀況表
圖2-5 北京市遷徙指數表
爲了查看整個數據集數值型數據的狀況,接入一個全表統計節點,選中全部數值型字段如圖2-6,輸出結果如圖2-7所示,能夠看到全部數據均不存在缺失值。
圖2-6 選取全部數值型字段
圖2-7 數據缺失狀況
2.3.數據預處理
本案例主要採用特徵衍生和數據變換的預處理方法。
2.3.1. 特徵衍生
經過數據探索分析,發現2張數據表中字段格式不統一沒法合併,所以需統一字段格式。具體處理方法:對兩張表均接入一個派生列節點,截取出日期時間字段的年月日信息,統一字段格式。接入一個派生列節點,派生列配置如圖2-8所示。
圖2-8 派生列配置
派生列後結果如圖2-9
圖2-9 轉換後的日期時間格式
根據轉換後的日期時間格式能夠衍生字段「weekday」,表示當天屬於一週中的第幾天,接入一個派生列節點,派生列配置如圖2-10所示。
圖2-10 派生列配置
「weekday」字段衍生後結果如圖2-11。
圖2-11 weekday字段
2.3.2. 數據變化
因爲原始的重點區域人羣密度表只提供了歷史20200117-20200215的天天分小時人流量,要作迴歸預測,需給該目標值構造特徵,具體構造特徵方法爲:利用日期、小時、weekday、區域和區域類型的人流量指數和遷徙指數統計值聚合特徵,如最小值、最大值、均值、總和等;
接入聚合節點,對日期、小時、weekday、區域、區域類型分別做Group操做,人流量指數、遷徙指數做Min、Max、Avg、Sum操做,如圖2-十二、2-1三、2-1四、2-1五、2-16。
圖2-12 根據區域聚合人流量指數
圖2-13 根據區域類型聚合人流量指數
圖2-14 根據小時聚合人流量指數
圖2-15 根據weekday聚合人流量指數
圖2-16 根據日期聚合遷徙指數
對聚合後的特徵使用JOIN節點進行合併,合併後可接入全表統計節點查看全部特徵字段的分佈狀況,如圖2-17所示。
圖2-17 指標數值分佈狀況
2.3.3. 預處理流程圖
整個預處理流程圖如圖2-18所示。
圖2-18
2.4.創建模型
咱們使用一個迴歸算法,這裏選用梯度提高迴歸樹算法。總體的實驗流程如圖2-19所示。
圖2-19 人羣密度迴歸預測模型
特徵選擇節點,特徵列選擇數據變換步驟輸出的聚合特徵,如圖2-20。
圖2-20 特徵選擇特徵列
特徵選擇的目標列選擇人流量指數,如圖2-21。
圖2-21 選擇目標列
拆分節點使用默認參數配置,訓練集與測試集的佔比爲7:3;
梯度提高迴歸樹的參數配置如圖2-21所示。
圖2-21 梯度提高迴歸樹的參數配置
評估節點的輸出結果如圖2-22所示,R2大概爲0.96。
圖2-22 模型評估結果
本案例結合疫情期間重點區域人流量密度預測案例,重點介紹了迴歸預測分析在實際案例中的應用。本案例藉助重點區域歷史的人羣密度,統計人流量指數和遷徙指數特徵;創建模型預測重點區域將來的人羣密度,掌握人員流動彙集的動向;針對人羣密度較大的區域,作好緊急疫情防控工做。