Python爬蟲，用第三方庫解決下載網頁中文本的問題

時間 2019-11-06

標籤 python 爬蟲第三方解決下載網頁文本問題欄目 Python 简体版

原文原文鏈接

還在辛辛苦苦的查找網頁規律，寫正則或者其餘方式去匹配文本內容嗎？還在糾結怎麼去除小說網站的其餘字符嗎？python

先來看看下面2張圖，都是某小說網站的小說內容git

怎麼樣，是否是很簡潔！這就是今天給你們介紹的庫，newspaper庫！github

newspaper

python3.x安裝: pip install newspaper3kpython3.x

python2.7安裝: pip install newspaperpython2.7

簡單的給你們說說它的功能:網站

首先是獲取網頁全部url的功能，咱們以sina新聞爲例子，寫代碼以下：url

看，這就把新浪新聞主頁的全部url連接抓到了，是否是很快捷!（固然結果仍是須要各類篩選）spa

提取網頁全部文本內容，此次咱們隨便找個新聞來試試！3d

是否是很方便~！！並且這個對小說網站依然有效（還記得開始的圖嗎？）！！你們能夠去試試。code

固然，這個庫還有其餘不少的功能，這裏就不一一說明了，你們能夠自行去摸索哦！

這是一個很是不錯的庫，適合用來寫爬蟲，若有不懂的地方我在評論區等着你，關注一下，與你共享更多有用的知識。你們加油！

參考來源：https://github.com/codelucas/newspaper

相關標籤/搜索