Python分佈式爬蟲前菜(2):關於提取網頁源碼中特定信息的技巧

前面介紹了不一樣方法來獲取靜態和動態各種網頁源碼,但是咱們知道網頁源碼是夾雜着各類文字和代碼的讓人很是眼花繚亂的信息。如何從中提取出有用的信息是一次有意義的爬蟲過程當中不可避免的問題。這裏咱們須要快速簡潔的工具幫咱們完成,其中就有re,BeautifulSoup和XPath等優秀表明。閒話不說,直接進入主題:html (一)re(regular expression operations),即咱們
相關文章
相關標籤/搜索