python基礎爬蟲的框架以及詳細的運行流程

時間 2019-12-08

標籤 python 基礎爬蟲框架以及詳細運行流程欄目 Python 简体版

原文原文鏈接

網絡爬蟲是什麼？

網絡爬蟲就是：請求網站並提取數據的自動化程序python

網絡爬蟲能作什麼？

網絡爬蟲被普遍用於互聯網搜索引擎或其餘相似網站，能夠自動採集全部其可以訪問到的頁面內容，以獲取或更新這些網站的內容和檢索方式。
數據庫

網絡爬蟲還被用於爬取各個網站的數據，進行分析、預測
近幾年來，大量的企業和我的開始使用網絡爬蟲採集互聯網的公開數據，進行數據分析，進一步達到商業目的。瀏覽器

利用網絡爬蟲能從網上爬取什麼數據？

能夠好不吹噓的說，平時從瀏覽器瀏覽的全部數據都能被爬取下來。網絡

網絡爬蟲是否合法？

上面說到了爬蟲能夠爬取任何數據，那麼，爬取數據這種行爲是否合法？
目前關於爬取數據的法律還在創建和完善中，若是爬取的數據屬於我的使用或者科研範疇，基本不存在什麼問題；一旦要用於商業用途就得注意了，有可能會違法。互聯網界對於網絡爬蟲也創建了必定的道德規範（Robots協議）來約束。
這裏具體看下Robots協議
Robots協議規定各個搜索引擎哪些頁面能夠抓取，哪些頁面不能抓取，Robots協議雖然沒有被寫入法律，可是每個爬蟲都應該遵照這項協議。
下面是淘寶網的robots協議：

從圖中咱們就能夠發現淘寶網對百度的爬蟲引擎作出了規定，然而百度也會遵照這些規定，不信你能夠試試從百度是找不到淘寶裏的商品信息的。python爬蟲