地鐵譯:Spark for python developers ---Spark與數據的機器學習

機器學習可以從數據中得到有用的見解. 目標是縱觀Spark MLlib,採用合適的算法從數據集中生成見解。對於 Twitter的數據集, 採用非監督集羣算法來區分與Apache
Spark相關的tweets . 初始輸入是混合在一起的tweets。 首先提取相關特性, 然後在數據集中使用機器學習算法 , 最後評估結果和性能. 
本章重點如下: 

•瞭解 Spark MLlib 模塊及其算法,還有
相關文章
相關標籤/搜索