Python爬蟲,用第三方庫解決下載網頁中文本的問題

Python爬蟲,用第三方庫解決下載網頁中文本的問題

 還在辛辛苦苦的查找網頁規律,寫正則或者其餘方式去匹配文本內容嗎?還在糾結怎麼去除小說網站的其餘字符嗎?python

先來看看下面2張圖,都是某小說網站的小說內容git

Python爬蟲,用第三方庫解決下載網頁中文本的問題

 Python爬蟲,用第三方庫解決下載網頁中文本的問題

 怎麼樣,是否是很簡潔!這就是今天給你們介紹的庫,newspaper庫!github

newspaper

python3.x安裝: pip install newspaper3kpython3.x

python2.7安裝: pip install newspaperpython2.7

簡單的給你們說說它的功能:網站

首先是獲取網頁全部url的功能,咱們以sina新聞爲例子,寫代碼以下:url

Python爬蟲,用第三方庫解決下載網頁中文本的問題

 看,這就把新浪新聞主頁的全部url連接抓到了,是否是很快捷!(固然結果仍是須要各類篩選)spa

提取網頁全部文本內容,此次咱們隨便找個新聞來試試!3d

Python爬蟲,用第三方庫解決下載網頁中文本的問題

 是否是很方便~!!並且這個對小說網站依然有效(還記得開始的圖嗎?)!!你們能夠去試試。code

固然,這個庫還有其餘不少的功能,這裏就不一一說明了,你們能夠自行去摸索哦!

最後

這是一個很是不錯的庫,適合用來寫爬蟲,若有不懂的地方我在評論區等着你,關注一下,與你共享更多有用的知識。你們加油!

參考來源:https://github.com/codelucas/newspaper

相關文章
相關標籤/搜索