【一塊兒學爬蟲】爬蟲庫

#爬蟲庫html

  • urllib
  • re
  • requests :pip install requests
  • selenium:自動化測試,js渲染的網頁,這是使用requests沒法請求,須要selenium;須要下載chromdriver,移動到配置好的環境變量路徑中:這以後使用selenium能夠打開chrome瀏覽器。這個須要瀏覽器界面

form selenium import webdriver driver = webdriver.Chrome()#會自動打開瀏覽器 dirver.ger('www.baidu.com')#此時chrome瀏覽器會自動訪問百度 driver.page_source()#能夠獲取到網頁的源碼java

  • phantomjs:不須要界面,無界面瀏覽器,後臺靜默運行。下載後須要把EXE文件配置到環境遍變量

javafrom selenium import wendriver driver = wendriver.PhantomJS() driver,ger('www.baidu.com') driver.page_source();python

  • lxml 網頁解析。官網安裝或者先下載whl文件,再使用pip安裝:pip install whl文件名
  • beautifulsoup,依賴lxml庫,主要用於網頁解析

from bs4 import BeautifulSoup soup = BeautifulSoup('<html>','lxml')#解析htmlmysql

  • pyquery:網頁解析,pip install pyquery

from pyquery import PyQuery as pq doc = pq('') doc = pq('hello') result = doc('html').test() result#結果爲helloweb

#存儲庫面試

  • pymysql:操做MySQL

import pymysql conn = pymysql.connect(host='',user='',password='',端口,db=‘MySQL’) cursor=conn.cursor() cursor.execute('sql語句') cuesor.fetchone()#獲取一條記錄redis

  • pymongo:操做MongoDB,菲關係型數據庫

import pymongo client = pymongo.MngoClient('localhost') db = client('newestdb') db.insert('name':'cyb') db['table'] = find_one(('name':'cyb'))#數據的查詢sql

  • redis庫

import redis r = redis.Redis('localhost','6379') r.set('name':'bob') r.get('name')chrome

  • flask web庫,代理設置:代理獲取,代理存儲。
  • django:web服務器框架
  • jupyter :python在線調試

資料分享

java學習筆記、10T資料、100多個java項目分享數據庫


歡迎關注我的公衆號【菜鳥名企夢】,公衆號專一:互聯網求職面經javapython爬蟲大數據等技術分享**: 公衆號**菜鳥名企夢後臺發送「csdn」便可免費領取【csdn】和【百度文庫】下載服務; 公衆號菜鳥名企夢後臺發送「資料」:便可領取5T精品學習資料**、java面試考點java面經總結,以及幾十個java、大數據項目資料很全,你想找的幾乎都有

掃碼關注,及時獲取更多精彩內容。(博主今日頭條大數據工程師)
相關文章
相關標籤/搜索