爬蟲基礎之(二) --- urllib基礎

時間 2019-11-08

標籤爬蟲基礎 urllib 欄目網絡爬蟲简体版

原文原文鏈接

簡介

爬取數據種類html

　　網頁：網頁文本，如HTML文檔，Json格式化文本等
　　圖片：獲取到的是二進制文件，保存爲圖片格式
　　視頻：一樣是二進制文件
　　其餘：只要請求到的，均可以獲取python

解析數據方法web

問題難點　　ajax

　　抓取的頁面數據和瀏覽器裏看到的不同的問題正則表達式

　　由於不少網站中的數據都是經過js，ajax動態加載的，因此直接經過get請求獲取的頁面和瀏覽器顯示的不一樣。sql

　　如何解決js渲染問題：分析ajax、Selenium/webdriver、Splash、PyV八、Ghost.py數據庫

保存數據瀏覽器

　　文本：純文本，Json、Xml等oracle

　　關係型數據庫： Mysql、oracle、sql server等結構化數據庫框架

　　非關係型數據庫：MongoDB、Redis等key-value形式存儲

urllib介紹

　Urllib是python內置的HTTP請求庫，是python提供的一個用於發起和處理http請求和響應的框架。

　後期的一些框架,好比： requests、 scrapy等都是基於它

　包括如下四個模塊：

mac中使用：

import ssl
ssl._create_default_https_context = ssl._create_unverified_context

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。