基於Scrapy的網絡爬蟲和Sklearn的機器學習算法

本着對網絡爬蟲的興趣,在閒來無事時做了一個有關網絡爬蟲的項目,本項目用的是Scrapy爬蟲框架,同時爲了有效利用這些數據,用入門的sklearn對這些數據進行預處理並訓練除了一個預測模型,下面開始本項目的介紹。 1、數據準備與爬蟲 本項目以房天下網站北京市租房信息爲對象,首先確定爬取的房屋屬性爲:標題、出租方式、戶型、建築面積、朝向、樓層、裝修程度等因素。首先我們獲取要爬取內容的首頁爲http:/
相關文章
相關標籤/搜索