TipDM數據挖掘建模平臺是由廣東泰迪智能科技股份有限公司自主研發、基於Python引擎、用於數據挖掘建模的開源平臺。平臺提供數量豐富的數據分析與挖掘建模組件,用戶可在沒有編程基礎的狀況下,經過拖拽的方式進行操做,將數據輸入輸出、數據預處理、挖掘建模、模型評估等環節經過流程化的方式進行鏈接,幫助用戶快速創建數據挖掘工程,提高數據處理的效能。平臺的界面如圖1所示。python
圖1 平臺界面圖
TipDM數據挖掘建模平臺主要有如下幾個特色。算法
(1) 平臺算法基於Python引擎,用於數據挖掘建模。Python是目前最爲流行的用於數據挖掘建模的語言之一,高度契合行業需求。數據庫
(2) 用戶可在沒有Python編程基礎的狀況下,使用直觀的可視化圖形界面,經過拖拽的方式構建數據挖掘流程,無需編程。編程
(3) 提供公開可用的數據挖掘示例工程,一鍵建立,快速運行。支持挖掘流程每一個節點的結果在線預覽。提供實時日誌查看功能,出現問題快速定位。瀏覽器
(4) 提供十大類數十種算法組件,包括數據預處理、統計分析、分類、聚類等經常使用數據挖掘算法。同時提供Python腳本與SQL腳本,粘貼代碼便可運行。網絡
(5) 平臺將每一個功能模塊封裝成接口,接口基於標準RESTful設計,能夠經過瀏覽器在線瀏覽、測試各個接口,方便用戶進行二次開發。函數
平臺主要分爲模板、數據源、工程和系統組件四個模塊。測試
登陸平臺後,用戶便可看到系統提供的示例工程(模板),如圖2所示。大數據
圖2 示例工程(模板)
【模板】主要用於經常使用大數據挖掘案例的快速建立和展現。經過【模板】,用戶能夠建立一個無需導入數據及配置參數就可以快速運行的工程。同時,用戶能夠將本身搭建的數據挖掘工程生成爲模板,顯示在【首頁】,供其餘用戶一鍵建立。網站
【數據源】主要用於數據挖掘工程的數據導入與管理,根據狀況用戶可選擇【CSV文件】或者【SQL數據庫】。【CSV文件】支持從本地導入CSV類型的數據,如圖3所示;【SQL數據庫】支持從DB二、SQL Server、MySQL、Oracle、PostgreSQL等關係型數據庫導入數據,如圖4所示。
圖3 數據來源於CSV文件
圖4 數據來源於SQL數據庫
數據上傳成功後,用戶可使用數據分享功能,如圖5所示,將搭建工程涉及到的數據分享給其餘用戶。其餘用戶可在【共享數據源】內查看到分享給本身的數據,如圖6所示,並使用該數據進行分析挖掘。
圖5 數據源分享功能
圖6 【共享數據源】
【工程】主要用於數據分析與挖掘流程化的建立與管理,如圖7所示。經過【工程】,用戶能夠建立空白工程,進行數據挖掘工程的配置,將數據輸入輸出、數據預處理、挖掘建模、模型評估等環節經過流程化的方式進行鏈接,達到數據分析與挖掘的目的。
圖7 平臺提供的示例工程
【系統組件】主要用於數據分析與挖掘經常使用算法組件的管理。組件包括輸入/輸出、統計分析、預處理、腳本類組件、聚類、分類、迴歸、時序模型、模型評估和模型預測,共十大類,如圖8所示。
(1) 【輸入/輸出】提供配置數據挖掘工程的輸入和輸出組件,包括:輸入源、輸出源。
(2) 【統計分析】提供對數據總體狀況進行統計的經常使用組件,包括:數據探索、純隨機性檢驗、相關性分析、單樣本T檢驗、正態性檢驗、雙樣本T檢驗、主成分分析、頻數統計、全表統計、平穩性檢驗、因子分析、卡方檢驗。
(3) 【數據預處理】提供對數據進行清洗的組件,包括:特徵構造、表堆疊、記錄選擇、錶鏈接、新增序列、數據集劃分、類型轉換、缺失值處理、記錄去重、異常值處理、數據標準化、數學類函數、排序、分組聚合、修改列名。
(4) 【腳本】提供一個代碼編輯框,用戶能夠在代碼編輯框中粘貼已經寫好的程序代碼,直接運行,無需再額外配置成組件,包括:Python腳本、SQL腳本。
(5) 【分類】提供經常使用的分類算法組件,包括:CART分類樹、ID3分類樹、最近鄰分類、樸素貝葉斯、支持向量機、邏輯迴歸、多層感知神經網絡。
(6) 【聚類】提供經常使用的聚類算法組件,包括:層次聚類、DBSCAN密度聚類、K-Means聚類。
(7) 【迴歸】提供經常使用的迴歸算法組件,包括:CART迴歸樹、線性迴歸、支持向量迴歸、最近鄰迴歸、LASSO迴歸。
(8) 【時間序列】提供經常使用的時間序列算法組件,包括:ARIMA、GM(1,1)、差分。
(9) 【模型評估】提供對經過分類算法或迴歸算法訓練獲得的模型進行評價的組件。
(10) 【模型預測】提供對經過分類算法或迴歸算法訓練獲得的模型進行預測的組件。
圖8 平臺提供的系統組件
經過開源TipDM數據挖掘建模平臺官網(http://python.tipdm.org),如圖9所示,進入Github或碼雲開源網站,如圖10所示,同步平臺程序代碼到本地,按照說明文檔進行配置部署。
圖 9 TipDM數據挖掘建模平臺官網
圖10 平臺程序代碼(碼雲)
平臺官網提供了數量豐富的不一樣行業的解決方案,主要介紹使用平臺搭建數據挖掘工程的不一樣行業的案例,包含【電子商務】【智能設備】【金融保險】等,如圖11所示,用戶能夠根據步驟提示,動手搭建數據挖掘工程。
圖 11 【解決方案】
平臺官網還提供了詳細的幫助資料,包含【操做文檔】【常見問題】【操做視頻】,如圖12所示,用戶能夠根據這些資料,輕鬆入門平臺的使用。
圖12 【幫助中心】
完整步驟,你們能夠
進入http://python.tipdm.org,點擊「下載文檔」查看操做文檔。
登錄http://python.tipdm.cn,體驗TipDM工程。
聯 系 方 式電話:13902464353(施工)交流Q羣:197738983