【一塊兒學爬蟲】爬蟲庫

時間 2019-11-08

原文原文鏈接

#爬蟲庫html

urllib
re
requests ：pip install requests
selenium:自動化測試，js渲染的網頁，這是使用requests沒法請求，須要selenium；須要下載chromdriver，移動到配置好的環境變量路徑中：這以後使用selenium能夠打開chrome瀏覽器。這個須要瀏覽器界面

form selenium import webdriver driver = webdriver.Chrome()#會自動打開瀏覽器 dirver.ger('www.baidu.com')#此時chrome瀏覽器會自動訪問百度 driver.page_source()#能夠獲取到網頁的源碼java

phantomjs:不須要界面，無界面瀏覽器，後臺靜默運行。下載後須要把EXE文件配置到環境遍變量

javafrom selenium import wendriver driver = wendriver.PhantomJS() driver,ger('www.baidu.com') driver.page_source();python

lxml 網頁解析。官網安裝或者先下載whl文件，再使用pip安裝：pip install whl文件名
beautifulsoup，依賴lxml庫，主要用於網頁解析

from bs4 import BeautifulSoup soup = BeautifulSoup('<html>','lxml')#解析htmlmysql

pyquery：網頁解析，pip install pyquery

from pyquery import PyQuery as pq doc = pq('') doc = pq('hello') result = doc('html').test() result#結果爲helloweb

#存儲庫面試

pymysql：操做MySQL

import pymysql conn = pymysql.connect(host='',user='',password='',端口，db=‘MySQL’) cursor=conn.cursor() cursor.execute('sql語句') cuesor.fetchone()#獲取一條記錄redis

pymongo：操做MongoDB，菲關係型數據庫

import pymongo client = pymongo.MngoClient('localhost') db = client('newestdb') db.insert('name':'cyb') db['table'] = find_one(('name':'cyb'))#數據的查詢sql

redis庫

import redis r = redis.Redis('localhost','6379') r.set('name':'bob') r.get('name')chrome

flask web庫，代理設置：代理獲取，代理存儲。
django：web服務器框架
jupyter ：python在線調試

資料分享

java學習筆記、10T資料、100多個java項目分享數據庫

歡迎關注我的公衆號【菜鳥名企夢】，公衆號專一：互聯網求職面經、java、python、爬蟲、大數據等技術分享**：公衆號**菜鳥名企夢後臺發送「csdn」便可免費領取【csdn】和【百度文庫】下載服務；公衆號菜鳥名企夢後臺發送「資料」:便可領取5T精品學習資料**、java面試考點和java面經總結，以及幾十個java、大數據項目，資料很全，你想找的幾乎都有