地鐵譯：Spark for python developers ---Spark與數據的機器學習

時間 2021-01-14

原文原文鏈接

機器學習可以從數據中得到有用的見解. 目標是縱觀Spark MLlib，採用合適的算法從數據集中生成見解。對於 Twitter的數據集, 採用非監督集羣算法來區分與Apache Spark相關的tweets . 初始輸入是混合在一起的tweets。首先提取相關特性, 然後在數據集中使用機器學習算法 , 最後評估結果和性能.  本章重點如下:   •瞭解 Spark MLlib 模塊及其算法，還有

>>阅读原文<<