eclipse開發scrapy爬蟲工程，附爬蟲臨門級教程

時間 2019-11-18

標籤 eclipse 開發 scrapy 爬蟲工程臨門教程欄目 Eclipse 简体版

原文原文鏈接

寫在前面java

自學爬蟲入門以後感受應該將本身的學習過程整理一下，也爲了留個記念吧。node

scrapy環境的配置還請自行百度，其實也不難（僅針對windows系統，centos配置了兩天，直到如今都沒整明白）python

就是安裝python以後下載pip，setup pip，而後用pip install下載就好了（pyspider也是這樣配置的）。json

附主要資料參考地址windows

scrapy教程地址 https://www.bilibili.com/video/av13663892?t=129&p=2centos

eclipse開發scrapy https://blog.csdn.net/ioiol/article/details/46745993框架

首先要確保主機配置了eclipse、python還有pip的環境dom

安裝scrapy框架的方法eclipse

進入cmd界面scrapy

::pip更新命令

pip install --upgrade pip

::pip安裝scrapy

pip intall scrapy

安裝完成以後就能夠使用了

cmd環境建立scrapy的demo程序

首先建立一個目錄，位置隨意，隨後進入目錄，輸入scrapy查看命令使用方式

startproject建立工程命令。格式scrapy startproject 工程名稱

genspider建立爬蟲命令，一個工程能夠有多個爬蟲。格式 scrapy genspider 爬蟲名（不能和工程重名）爬蟲初始ip地址值

目標是獲取tmooc首頁的側邊欄的內容（sub的子元素a的子元素span的文本內容)

tmooc首頁

側邊欄內容

編輯item.py，位置在spider目錄同級（代碼簡單，就不粘貼代碼了）

編輯test.py

代碼部分

# -*- coding: utf-8 -*-

import scrapy

# 須要導包，引入生成item的方法

from demo.items import DemoItem

class TestSpider(scrapy.Spider):

# 爬蟲名，運行時要用到

name = 'test'

# 限制域，超出範圍者不去處理，可省略

allowed_domains = ['http://www.tmooc.cn']

# 起始地址

start_urls = ['http://www.tmooc.cn/']

# 回調函數

def parse(self, response):

# 爬蟲的本質就是請求地址，解析響應內容，而後再次請求下一個地址的程序

# 因此爬蟲的主要部分就在於如何操做response對象

nodes=response.xpath("//li[@class='sub']")

for node in nodes:

#item由spider同級目錄下的items.py方法生成，是一個相似與字典（java map）的類型

item=DemoItem()

item['name']=node.xpath("./a/span/text()").extract()[0]

#yield相似於return，詳情百度。

yield item

編譯test.py，運行spider程序

crawl是運行spider的命令。格式scrapy crawl 爬蟲名 [-o 文件名]

-o參數可選，做用是將spider爬取的數據保存。保存在運行指令的目錄下，能夠保存成csv（excel表）json jsonl xml...等多種格式

結果展現

eclipse開發scrapyspider工程

首先要保證eclipse有python的開發環境

新建python工程，選項默認便可

建立好的目錄結構

進入本地的workspace，找到該工程目錄

將剛纔建立的scrapy工程目錄拷貝過來，不要一開始建立的那個文件夾

將demo目錄

拷貝到

工程目錄下。記得刪除上次運行的結果文件

run -> run configuretion ->

運行結果

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。