用Python實現不一樣數據源的對象匹配【思考】

關於以前的利用python實現不一樣數據源的數據匹配的實驗的一些思考:python

  1. 在開始匹配以前必定要對於兩個數據源中的記錄進行分析,結合實際的應用場景判斷合適的匹配字段;數據結構

  2. 開始匹配以前能夠進行一些簡單的判斷,看看所獲得的數據的純淨度如何,好比是否存在重複數據?重複數據重複的情形(徹底重複or部分重複)以及按某一字段排序來進一步分析看看;函數

  3. 在實驗過程當中的測試是十分重要的,在原始數據集較大的狀況下要可以根據原始記錄以及所需測試的函數寫測試樣例進行沙盒測試,雖然不可能面面俱到,由於原始數據老是會出現一些意想不到的問題,因此經過沙盒測試以後在對原始數據中出現的問題再進一步修改測試樣例直到最後原始數據經過測試;工具

後續會針對這次實驗過程當中書寫的測試以及文件與一些‘數據結構’之間的轉換作一個小工具包的整理測試

相關文章
相關標籤/搜索