咱們前面提出了幾個問題,如今就來一個一個的解決這些問題html
1.BS4是什麼?
python
官方文檔上是這樣寫的:linux
Beautiful Soup 是一個能夠從HTML或XML文件中提取數據的Python庫
正則表達式
所謂的提取數據就是在網頁源碼中獲取你想要的信息,好比,網址,圖片的連接,文字等等,這個功能跟咱們以前使用的正則表達式同樣,並且通過前面的學習咱們也知道,使用正則表達式在網頁源碼中獲取咱們想要的數據並非一件很困難的事情,只須要記住".*?"和"(.*?)",就好了,那爲何咱們還要學習 BS4呢?ubuntu
2. 爲何要學習BS4?windows
我以爲這是在咱們學習以前最主要的問題,其餘的BS4是什麼,怎麼安裝,怎麼使用這些都是次要的,這些內容上網隨時能夠找獲得,我沒有必要糾結這些,並且若是不知道爲何要學BS4,這些問題我可能連查都不會去查,我就直接使用RE,這跟個人性格有關,我必需要先知道爲何去作一件事情,找到一個能說服個人理由,而後纔會認真的去作這件事情cookie
可是事實上,這BS4還真是必需要學的同樣東西,這個問題我會在下一個小節以一個例子來詳細的說明,如今先來看看其餘的問題函數
3. BS4怎麼使用
學習
前面也說了BS4是python的一個庫,也就是,模塊,咱們前面的學習中也使用到了一些模塊,像re,urllib,urllib2,cookielib,等等,因此既然BS4也是一個模塊,那它的用法應該也跟前面同樣,因此咱們就來import看看吧url
這裏出現了一個錯誤,這是爲何呢?
緣由很簡單,前面咱們使用到的庫是python自帶的庫函數,因此咱們不須要安裝直接import就可使用,可是BS4不同,BS4不是python自帶的庫,它是一個第三方的庫,在咱們的系統中並無這個庫函數,因此咱們直接import會提示沒有這個模塊----"no module name bs4",解決的方法也很簡單,直接安裝這個模塊就好了
至於怎麼安裝,根據操做系統的不一樣安裝的方法也有不一樣,這裏簡單的講一下
我這裏使用的是ubuntu系統,個人安裝方法很簡單
sudo apt-get install python-bs4
至於其餘的操做系統包括其餘的linux,或者windows,能夠到http://www.crummy.com/software/BeautifulSoup/download/4.x/ 下載源碼而後經過setup.py來安裝
Python setup.py install
這些都是很簡單的問題,實在不懂的話網上一大把,能夠上網去找找看
4. 怎麼學習BS4
這個問題也很重要,先要知道爲何要學,而後須要知道怎麼學,這個怎麼學的過程首先要認知自我,你以爲你能憑空學出來一個BS4嗎?若是能憑空的話,那應該是你本身造出來的只屬於你的BS4,因此咱們須要一個教材,或者說一本參考書之類的,那咱們以什麼做爲學習的標準呢?BS4的官方文檔,在學習以前,我首先是看了官方文檔,可是發現寫得不是那麼有趣,因此我就上網去找找看有沒有什麼好的資料,結果發現網上絕大部分的教程都是官方文檔上的,甚至連例子都不修改一下,最後沒辦法只能乖乖的看官方文檔來學習,哦,對了,官方文檔的地址是這個
http://beautifulsoup.readthedocs.org/zh_CN/latest/#
好了,這一小節咱們總算把BS4的一些最最基本的問題講完了,可是別忘了最重要的問題:
爲何要學習BS4