使用rabbitmq對文本使用tf_idf算法進行分析的項目記錄

之前用爬蟲爬了三個源,共爬取了30w左右的博客,爬蟲項目:itmap_spiders。 接着對這些文本進行分析,要求是找出每篇文章的關鍵詞。我對TF*IDF算法有一些瞭解,就選擇了它。項目:itmap_data_analysis。 業務架構 由於數據量有點大,所以使用消息隊列進行拆分,拆分標準是按照步驟來。具體的步驟如下圖所示。 architecture 技術棧: 使用pika來與RabbitMQ
相關文章
相關標籤/搜索