前面已經對BS4有了簡單的認識和講解,該講的都講了,本來也已經想好了一個實例,可是如今想日後推一推,由於我實在受不了了,咱們前面說的參考文檔是BS4的官方文檔,就是這貨:http://beautifulsoup.readthedocs.org/zh_CN/latest/#extract 可是這幾天我在打開這個網址的時候發現,要麼就是很慢很慢才能打開,要麼就是根本就打不開,真是豈有此理,雖然這有可能也是公司網絡的限制,可是這種"和尚摸得,我摸不得?"的心情實在難受,因此我決定將BS4的文檔直接下載到本地網絡
在開始以前,咱們先來分析這個實例文檔
實例:下載BS4官方文檔get
實例要求:beautifulsoup
將BS4官方文檔下載到本地並保存
test
下載的文檔格式要與網頁上的保持一致下載
實例分析:標籤
須要獲取的內容是一大塊的內容,中間還有各類網頁標籤之類的,使用RE很難實現,因此選擇BS4
字符
要獲取的部分含有轉義字符,不規範的代碼等等,因此咱們須要進行二次處理實例