python 實現簡單爬蟲

此文是學習爬蟲實例的過程中所做的課程筆記。   一.爬蟲: 一段自動抓取互聯網信息的程序。 通常使用人工的方法獲取感興趣的信息,但耗時長,效率低。爬蟲即從感興趣的url出發,訪問所有關聯的url,並從每個頁面中提取有價值的信息。 其價值在於:將互聯網的數據爲我所用。 二.簡單的爬蟲架構: 1.爬蟲調度端: 用以啓動爬蟲,關閉爬蟲,和監視其運行情況。 2.爬蟲主要有三部分: (1)URL管理器:對已
相關文章
相關標籤/搜索