python3.6+scrapy+mysql 爬蟲實戰

最近閒着,把以前寫的小爬蟲分享一下,才疏學淺,僅當參考。php

[介紹文檔]

python版本:python3.6
    scrapy: 1.5.0
    須要安裝pymysql包支持訪問mysql數據庫
    能夠使用pip安裝: pip install pymysql

重要提示

*或者按照下述方法執行一鍵安裝依賴:pip install -r requirements.txt

*重要事情說三遍:請確保你安裝了mysql數據庫! 請確保你安裝了mysql數據庫! 請確保你安裝了mysql數據庫!

*全部平臺的Mysql下載地址爲: https://dev.mysql.com/downloads/挑選你須要的 MySQL Community Server 版本及對應的平臺。

爬蟲工做配置

  • 第一步:下載github項目文件
git clone git@github.com:caffreycc/jb51.com_crawler.git

或者直接到https://github.com/caffreycc/jb51.com_crawler.git 下載zip文件
* 第二步:安裝依賴:
pip install -r requirements.txt
  • 第三步:修改配置Config.py:
Config.py 爲項目配置文件

    host = '127.0.0.1' #改爲你的數據庫地址,若是須要保存在線服務器請填寫數據庫IP
    dbname = 'your database naem'  # 數據庫名字,請修改
    user = 'your databse user'  # 數據庫帳號,請修改
    psw = 'your password'  # 數據庫密碼,請修改
    port = 3306  # 數據庫端口,在dbhelper中使用,通常無需修改
  • 第四步:運行小爬蟲
命令行cd到你的項目文件夾,運行如下命令:
    或者直接在你的爬蟲文件夾內shift + 右鍵 打開命令提示符或者powershell,運行如下命令
    scrapy crawl Common_crawler

    爬取的內容會自動保存到 config.py 中配置的mysql數據庫中

問題反饋

  有任何關於項目的問題歡迎提issuespython

貢獻代碼

本項目基於PythonCrawler-Scrapy-Mysql-File-Template開發,感謝做者@lawlite19(https://github.com/lawlite19)的開源分享精神。

項目地址: python3.6+scrapy+mysql 爬蟲實戰mysql

相關文章
相關標籤/搜索