基於Scrapy的網絡爬蟲和Sklearn的機器學習算法

時間 2021-01-16

標籤 Scrapy 網絡爬蟲 Sklearn 線性迴歸機器學習欄目 Python 简体版

原文原文鏈接

本着對網絡爬蟲的興趣，在閒來無事時做了一個有關網絡爬蟲的項目，本項目用的是Scrapy爬蟲框架，同時爲了有效利用這些數據，用入門的sklearn對這些數據進行預處理並訓練除了一個預測模型，下面開始本項目的介紹。 1、數據準備與爬蟲本項目以房天下網站北京市租房信息爲對象，首先確定爬取的房屋屬性爲：標題、出租方式、戶型、建築面積、朝向、樓層、裝修程度等因素。首先我們獲取要爬取內容的首頁爲http:/

>>阅读原文<<