scrapy使用入門

時間 2019-11-17

標籤 scrapy 使用入門欄目 Python 简体版

原文原文鏈接

安裝 html

yum install libxslt-devel libffi-devel dom

pip install Scrapy scrapy

建立項目 ide

scrapy startproject tutorial（工程名） url

定義item（至關於數據表中的一條數據） .net

vi tutorial/items.py htm

class myItem(scrapy.Item): blog

title = scrapy.Field()//至關於數據表的字段 ip

link = scrapy.Field() 文檔

desc = scrapy.Field()

編寫爬蟲

import scrapy class DmozSpider(scrapy.spiders.Spider)://有幾種抓取方式的父類

name = "dmoz"//必須定義的

allowed_domains = ["dmoz.org"]//可選屬性

start_urls = [ "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/", "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/" ]//必須定義

def parse(self, response)://解析網頁

filename = response.url.split("/")[-2]

with open(filename, 'wb') as f:

f.write(response.body)

爬取數據

scrapy crawl dmoz

官方中文文檔http://scrapy-chs.readthedocs.org/zh_CN/0.24/ 注：不是最新的~

參考：

http://www.cnblogs.com/rwxwsblog/p/4572367.html

http://blog.csdn.net/HanTangSongMing/article/details/24454453

1. Scrapy框架的使用之Scrapy入門
2. scrapy的入門使用（一）
3. Scrapy 入門：Hello Scrapy
4. scrapy入門
5. Scrapy入門（一）
6. 入門scrapy
7. Scrapy入門
8. Scrapy 入門
9. Scrapy入門（二）
10. scrapy helloworld入門
更多相關文章...
• Memcached入門教程 - NoSQL教程
• Neo4j數據庫入門教程 - NoSQL教程
• Java Agent入門實戰（一）-Instrumentation介紹與使用
• Java Agent入門實戰（三）-JVM Attach原理與使用

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。