爬取數據種類html
網頁:網頁文本,如HTML文檔,Json格式化文本等
圖片:獲取到的是二進制文件,保存爲圖片格式
視頻:一樣是二進制文件
其餘:只要請求到的,均可以獲取python
解析數據方法web
問題難點 ajax
抓取的頁面數據和瀏覽器裏看到的不同的問題正則表達式
由於不少網站中的數據都是經過js,ajax動態加載的,因此直接經過get請求獲取的頁面和瀏覽器顯示的不一樣。sql
如何解決js渲染問題:分析ajax、Selenium/webdriver、Splash、PyV八、Ghost.py數據庫
保存數據瀏覽器
文本: 純文本,Json、Xml等oracle
關係型數據庫: Mysql、oracle、sql server等結構化數據庫框架
非關係型數據庫:MongoDB、Redis等key-value形式存儲
官方文檔:https://docs.python.org/zh-cn/3/library/urllib.html
urllib介紹
Urllib是python內置的HTTP請求庫,是python提供的一個用於發起和處理http請求和響應的框架。
後期的一些框架,好比: requests、 scrapy等都是基於它
包括如下四個模塊:
mac中使用:
import ssl ssl._create_default_https_context = ssl._create_unverified_context