大數據處理實例——Amazon商品評分&評論（四）

時間 2019-12-06

原文原文鏈接

背景在本系列的第二篇中給出了Storm實時處理框架。其中有提到因爲後面的離線學習部分都是基於文本的詞頻向量，所以須要統計非重複單詞個數(向量維度)以及爲每一個單詞編號(該單詞詞頻所在列)。本篇就重點介紹本身基於ZK集羣的實現方式web 分析我本身的想法就是在Storm Topolopy的去停用詞階段(StopWordsFilterBolt)爲每個新單詞在ZK指定路徑上建立一個新的節點。同時啓動

>>阅读原文<<