使用rabbitmq對文本使用tf_idf算法進行分析的項目記錄

時間 2021-01-02

原文原文鏈接

之前用爬蟲爬了三個源，共爬取了30w左右的博客，爬蟲項目：itmap_spiders。接着對這些文本進行分析，要求是找出每篇文章的關鍵詞。我對TF*IDF算法有一些瞭解，就選擇了它。項目：itmap_data_analysis。業務架構由於數據量有點大，所以使用消息隊列進行拆分，拆分標準是按照步驟來。具體的步驟如下圖所示。 architecture 技術棧：使用pika來與RabbitMQ

>>阅读原文<<