作一個簡單的練習html
目標:爬取中文小說python
目標網站:http://www.biqule.com/book_58/26986.htmllinux
只爬取正文部分。測試
使用requests庫來獲取網頁信息,使用re庫正則匹配正文文本。網站
這裏有一點須要注意的是測試時是使用linux環境下的python,默認編碼爲utf-8。網頁中文文本爲gbk編碼。讀取時須要指定編碼爲gbk,否則會出現亂碼的現象。編碼
具體代碼以下:url
#!/usr/bin/python3 import requests from requests.exceptions import RequestException import re def open_index(url): try: response = requests.get(url) if response.status_code == 200: response.encoding = 'gbk' return response.text return None except RequestException: return None def parse_one_page(html): pattern = re.compile(' (.*?)<br />',re.S) items = re.findall(pattern,html) print(items) def main(): url = "http://www.biqule.com/book_58/26986.html" html = open_index(url) parse_one_page(html) if __name__ == '__main__': main()