一、安裝環境與小試程序

一、安裝python 3

一、從python官網下載 Windows的安裝包,注意32 bit和64 bit之分。html

二、雙擊進入安裝界面,將「把python加入到path變量中」的選項勾上,這個相似於裝java。java

三、安裝的時候自定義安裝路徑,此處我安裝在c:\program file\目錄下python

四、其餘根據合適進行勾選便可。api

五、安裝完成後,打開控制檯,輸入: python,便可驗證是否安裝成功。
服務器

二、安裝BeautifulSoup插件

    一、在www.crummy.com下載壓縮文件,並解壓到安裝python的文件夾:c:\program files\python中,文件夾爲:beautifulSoup
函數

    二、因爲安裝的是python 3,因此須要將beautifulsoup的代碼進行轉換。此處使用python自帶的工具2to3.py,該工具在~/python/Tools/scripts文件夾下,進入該文件夾,打開控制檯,對beautifulSoup進行轉換:2to3.py -w c:\program files\python\beautifulsoup(指定beautifulsoup的文件夾便可)工具

    三、改變代碼後,安裝beautifulsoup。進入beautifulsoup文件夾,打開控制檯,輸入命令:學習

setup.py build
setup.py install

四、檢驗安裝是否成功:import bs4ui

三、安裝pycharm

一、進入官網下載pycharm安裝包便可,一路下一步。url

二、打開pycharm後,程序若是沒法自動找到python的解釋器,須要進行指定。具體網上搜索:pycharm制定python解釋器。當指定好解釋器後,環境即搭建完成,具體設置因人而異。

四、示例程序

聲明:如下程序僅供學習參考,版權歸做者全部,如侵犯版權,請及時聯繫,立刻刪除。

示例1:粗糙版網頁下載程序

from urllib.request import urlopen
html=urlopen("http://pythonscraping.com/pages/page1.html")
print(html.read()); #urllib doc: docs.python.org/3/library/urllib.html


示例2:使用beautifulsoup訪問標籤

from urllib.request import urlopen
from bs4 import BeautifulSoup
html=urlopen("http://www.pythonscraping.com/pages/page1.html")
bsObj=BeautifulSoup(html.read())
print(bsObj.h1)


示例3:對異常和錯誤進行處理

#兩種狀況:一、沒找到請求頁面,或服務器內部錯誤:HTTPError
#           二、沒找到服務器,返回None
#           三、訪問不存在頁面的標籤,觸發AttributeError
from urllib.request import urlopen
from urllib.error import HTTPError
from bs4 import  BeautifulSoup

def getTitle(url): #定義函數
    try:#無請求頁面、或服務器內部出錯
        html=urlopen(url)
    except HTTPError as e:
        return None
    try:#查看沒有的標籤
        bsObj=BeautifulSoup(html.read(),"html.parser")
        title=bsObj.body.h1
    except AttributeError as e:
        return None
    return title#以return結束函數
title=getTitle("http://www.pythonscraping.com/pages/page1.html")
if title == None:
    print("Title could not be found")
else:
    print(title)

這個是程序中用到的網頁: 

http://pythonscraping.com/pages/page1.html 

相關文章
相關標籤/搜索