新浪網分類資訊爬蟲

      從GitHub得到完整項目(https://github.com/daleyzou/sinainfo.git) 1、簡介 爬取新浪網導航頁所有下所有大類、小類、小類裏的子鏈接,以及子鏈接頁面的新聞內容。 效果演示圖: 2、代碼 items.py 1 spiders/sina.py(爬蟲) 1 # -*- coding: utf-8 -*- 2 import scrapy
相關文章
相關標籤/搜索