一個簡單的網絡爬蟲入門python（包括開發環境搭建和pycharm激活）

時間 2019-11-17

標籤一個簡單網絡爬蟲入門 python 包括開發環境搭建 pycharm 激活欄目系統網絡简体版

原文原文鏈接

基本任務：python

I 搭建python開發環境算法

II 寫一個簡單的網絡爬蟲，在某一個網站將一部小說各章節（通常是一個章節一個網頁）粘貼到一個文本文件內。瀏覽器

1 首先了解幾個概念

1.1 網絡爬蟲緩存

網絡爬蟲是一個自動提取網頁的程序，它爲搜索引擎從萬維網上下載網頁，是搜索引擎的重要組成。服務器

網絡爬蟲能夠模擬瀏覽器瀏覽網頁，自動批量下載網絡資源（可以訪問到的，放在網絡服務器的文件）。網絡

傳統爬蟲從一個或若干初始網頁的URL開始，得到初始網頁上的URL，在抓取網頁的過程當中，不斷從當前頁面上抽取新的URL放入隊列,直到知足系統的必定中止條件。聚焦爬蟲的工做流程較爲複雜，須要根據必定的網頁分析算法過濾與主題無關的連接，保留有用的連接並將其放入等待抓取的URL隊列。而後，它將根據必定的搜索策略從隊列中選擇下一步要抓取的網頁URL，並重覆上述過程，直到達到系統的某一條件時中止。另外，全部被爬蟲抓取的網頁將會被系統存貯，進行必定的分析、過濾，並創建索引，以便以後的查詢和檢索；對於聚焦爬蟲來講，這一過程所獲得的分析結果還可能對之後的抓取過程給出反饋和指導。編輯器

1.2 小說網站的基本結構工具

首頁（總目錄）→分類→小說目錄頁→小說各章節；學習

1.3 與網站的交互開發工具

一般都是用戶經過瀏覽器（當IE）訪問網站（網絡上的服務器）。

瀏覽器：網址(href)、請求(requests)→網站服務器：響應(response)給瀏覽器→瀏覽器：緩存並呈現回覆的內容。

1.4 開發環境

用高級語言寫的代碼須要解釋或編碼到機器代碼，才能被計算機執行。

因此開發一個程序，最基本的需求是一個文本編輯器（寫）和解釋器或編譯器。

開發複雜的程序，須要調試查錯、須要引入第三方庫，須要邊結各文件，因此，通常來講，一個簡單的文本編輯器加一個解釋器或編譯器是不夠的，須要一個支持某種高級語言的調試器的較複雜的編輯器。這樣的編輯器同時還支持能夠方便寫代碼（如顏色分類顯示、代碼提示）的插件加入。