記錄下今天學習到的東西,分兩部分:
1 瞭解了一些異常檢測的算法算法
異常檢測算法的分類:函數
以上只是對經常使用的異常檢測算法進行了一個簡述,具體還須要查閱資料。學習
2 pyspark的繼續學習
今天看case study的時候學到了兩個很是重要的函數spa
rdd.combineByKey(f1,f2,f3) #輸入的必須是pair rdd(k,v) f1:初始函數,給全部非重複的k初始一個值 eg:lambda x:[x] 這個函數的意思就是把全部非重複的k賦初始值[v](把v變成了列表) f2:合併函數,對全部擁有相同k的數據進行合併 eg: lambda x,y:x+[y] 有點像reduce的味道,就是把全部相同的k的v合併到一個list中去(可是這裏只是產生累加器並未合併) f3:lambda x,y:x+y 這裏纔是真正的合併操做 獲得最後的結果 具體能夠參考:https://blog.csdn.net/u010159842/article/details/71471655 還有一個takeOrdered(20, key=lambda s:-s) rdd.takeOrdered(20, key=lambda s:-s) 這個函數的意思和take差很少,就是附帶排序功能,若是想降序的話要這麼寫key=lambda s:-s