從散亂數據中獲取洞察令你焦頭爛額?別急,救星來了!

數據具備許多形式,散亂無章。 不管咱們談論的是 缺失數據、非結構化數據, 仍是缺少常規結構的數據, 都須要採用某些方法對數據執行清理, 才能處理數據以改進數據質量。 這個系列教程探索了處理實際數據的重要問題, 以及能夠應用的一些方法。算法

這個系列教程分爲3個部分:處理散亂數據,從乾淨的數據集中獲取寶貴洞察和可視化數據。編程

第一部分:處理散亂數據。發現爲執行驗證和處理而清理數據的相關常見問題及其解決方案。您還將找到一個自定義工具,該工具用於執行數據清理和合並數據集以供分析。主要包含如下幾個部分:jsp

  • 什麼是散亂數據
  • 數據格式和模式
  • 數據混合或融合
  • 數據清理方法
  • 數據概要分析
  • 構建一個數據清理工具
  • 開源數據清理工具

第二部分:從乾淨的數據集中獲取寶貴洞察。瞭解 VQ 和 ART 算法。VQ 能夠快速高效地對一個數據集進行聚類,而 ART 能夠根據該數據集來調節聚類次數。主要包含如下幾個部分:編程語言

  • 矢量量化
  • 實現 VQ
  • 經過 VQ 進行聚類
  • 自適應共振理論
  • 實現 ART
  • 經過 ART 進行聚類

第三部分:可視化數據。探索可視化數據的一些更有用的應用,以及一些可用來建立這種可視化的方法,包括 R 編程語言、gnuplot 和 Graphviz。主要包含如下幾個部分:工具

  • 可視化原始數據集
  • 可視化運算過程
  • 可視化集羣

趕快點擊「閱讀原文」get 完整文章, 玩轉數據作精準洞察!教程

相關文章
相關標籤/搜索