前言html
說到python,對它有點耳聞的人,第一反應可能都是爬蟲~python
這兩天看了點python的皮毛知識,忍不住想寫一個簡單的爬蟲練練手,JUST DO ITajax
準備工做chrome
要製做數據抓取的爬蟲,對請求的源頁面結構須要有特定分析,只有分析正確了,才能更好更快的爬到咱們想要的內容。編程
打開博客園任何一個新聞頁面,好比https://news.cnblogs.com/n/570973/,思路是經過這個源頁面,而且根據頁面中的「上一篇」、「下一篇」等連接,源源不斷的爬取其它新聞內容。json
瀏覽器訪問https://news.cnblogs.com/n/570973/,右鍵「查看源代碼」,初步只想取一些簡單的數據(文章標題、做者、發佈時間等),在HTML源碼中找到相關數據的部分:windows
1)標題(url):<div id="news_title"><a href="//news.cnblogs.com/n/570973/">SpaceX重複使用的「龍」飛船成功與國際空間站對接</a></div>瀏覽器
2)做者:<span class="news_poster">投遞人 <a href="//home.cnblogs.com/u/34358/">itwriter</a></span>網絡
3)發佈時間:<span class="time">發佈於 2017-06-06 14:53</span>函數
4)當前新聞ID : <input type="hidden" value="570981" id="lbContentID">
固然了,要想「順藤摸瓜」,「上一篇」和「下一篇」連接的結構很是重要;但發現一個問題,頁面中的這兩個<a>標籤,它的連接和文本內容,是經過js渲染的,這可如何是好?嘗試尋找資料(python執行js之類的),可對於python菜鳥來講,可能有點超前了,打算另找方案。
雖然這兩個連接是經過js渲染的,可是理論上來講,js之因此能渲染該內容,應該也是經過發起請求,獲得響應後執行的渲染吧;那麼是否能夠經過監視網頁加載過程看看有什麼有用信息呢?在此要爲chrome/firefox這些瀏覽器點個讚了,開發者工具/網絡,能夠清清楚楚的看到全部資源的請求和響應狀況。
它們的請求地址分別爲:
1)上一篇新聞ID:https://news.cnblogs.com/NewsAjax/GetPreNewsById?contentId=570992
2)下一篇新聞ID:https://news.cnblogs.com/NewsAjax/GetNextNewsById?contentId=570992
響應的內容爲JSON
此處ContentID就是咱們須要的,能夠根據這個值,知道當前新聞的上一篇或下一篇新聞URL,由於新聞發佈的頁面地址是有固定格式的:https://news.cnblogs.com/n/{{ContentID}}/ (紅色內容就是可替換的ID)
工具
1)python 3.6(安裝的時候同時安裝pip,而且加入環境變量)
2)PyCharm 2017.1.3
3)第三方python庫(安裝:cmd -> pip install name)
a)pyperclip : 用於讀寫剪貼板
b)requests : 基於 urllib,採用 Apache2 Licensed 開源協議的 HTTP 庫。它比 urllib 更加方便,能夠節約咱們大量的工做
c)beautifulsoup4 : Beautiful Soup提供一些簡單的、python式的函數用來處理導航、搜索、修改分析樹等功能。它是一個工具箱,經過解析文檔爲用戶提供須要抓取的數據
源碼
代碼我的以爲都是很基礎易懂的(畢竟菜鳥也寫不出高深的代碼),有疑問或是建議的,請不吝賜教
#! python3 # coding = utf-8 # get_cnblogs_news.py # 根據博客園內的任意一篇新聞,獲取全部新聞(標題、發佈時間、發佈人) # https://news.cnblogs.com/n/123456/ # 這是標題格式 :<div id="news_title"><a href="//news.cnblogs.com/n/570973/">SpaceX重複使用的「龍」飛船成功與國際空間站對接</a></div> # 這是發佈人格式 :<span class="news_poster">投遞人 <a href="//home.cnblogs.com/u/34358/">itwriter</a></span> # 這是發佈時間格式 :<span class="time">發佈於 2017-06-06 14:53</span> # 當前新聞ID :<input type="hidden" value="570981" id="lbContentID"> # html中獲取不到上一篇和下一篇的直接連接,由於它是使用ajax請求後期渲染的 # 須要另外請求地址,獲取結果,JSON # 上一篇 https://news.cnblogs.com/NewsAjax/GetPreNewsById?contentId=570971 # 下一篇 https://news.cnblogs.com/NewsAjax/GetNextNewsById?contentId=570971 # 響應內容 # ContentID : 570971 # Title : "Mac支持外部GPU VR開發套件售599美圓" # Submitdate : "/Date(1425445514)" # SubmitdateFormat : "2017-06-06 14:47" import sys, pyperclip import requests, bs4 import json # 解析並打印(標題、做者、發佈時間、當前ID) # soup : 響應的HTML內容通過bs4轉化的對象 def get_info(soup): dict_info = {'curr_id': '', 'author': '', 'time': '', 'title': '', 'url': ''} titles = soup.select('div#news_title > a') if len(titles) > 0: dict_info['title'] = titles[0].getText() dict_info['url'] = titles[0].get('href') authors = soup.select('span.news_poster > a') if len(authors) > 0: dict_info['author'] = authors[0].getText() times = soup.select('span.time') if len(times) > 0: dict_info['time'] = times[0].getText() content_ids = soup.select('input#lbContentID') if len(content_ids) > 0: dict_info['curr_id'] = content_ids[0].get('value') # 寫文件 with open('D:/cnblognews.csv', 'a') as f: text = '%s,%s,%s,%s\n' % (dict_info['curr_id'], (dict_info['author'] + dict_info['time']), dict_info['url'], dict_info['title']) print(text) f.write(text) return dict_info['curr_id'] # 獲取前一篇文章信息 # curr_id : 新聞ID # loop_count : 向上多少條,若是爲0,則無限向上,直至結束 def get_prev_info(curr_id, loop_count = 0): private_loop_count = 0 try: while loop_count == 0 or private_loop_count < loop_count: res_prev = requests.get('https://news.cnblogs.com/NewsAjax/GetPreNewsById?contentId=' + curr_id) res_prev.raise_for_status() res_prev_dict = json.loads(res_prev.text) prev_id = res_prev_dict['ContentID'] res_prev = requests.get('https://news.cnblogs.com/n/%s/' % prev_id) res_prev.raise_for_status() soup_prev = bs4.BeautifulSoup(res_prev.text, 'html.parser') curr_id = get_info(soup_prev) private_loop_count += 1 except: pass # 獲取下一篇文章信息 # curr_id : 新聞ID # loop_count : 向下多少條,若是爲0,則無限向下,直至結束 def get_next_info(curr_id, loop_count = 0): private_loop_count = 0 try: while loop_count == 0 or private_loop_count < loop_count: res_next = requests.get('https://news.cnblogs.com/NewsAjax/GetNextNewsById?contentId=' + curr_id) res_next.raise_for_status() res_next_dict = json.loads(res_next.text) next_id = res_next_dict['ContentID'] res_next = requests.get('https://news.cnblogs.com/n/%s/' % next_id) res_next.raise_for_status() soup_next = bs4.BeautifulSoup(res_next.text, 'html.parser') curr_id = get_info(soup_next) private_loop_count += 1 except: pass # 參數從優先從命令行獲取,若是無,則從剪切板獲取 # url是博客園新聞版塊下,任何一篇新聞 if len(sys.argv) > 1: url = sys.argv[1] else: url = pyperclip.paste() # 沒有獲取到有地址,則拋出異常 if not url: raise ValueError # 開始從源地址中獲取新聞內容 res = requests.get(url) res.raise_for_status() if not res.text: raise ValueError #解析Html soup = bs4.BeautifulSoup(res.text, 'html.parser') curr_id = get_info(soup) print('backward...') get_prev_info(curr_id) print('forward...') get_next_info(curr_id) print('done')
運行
將以上源代碼保存至D:/get_cnblogs_news.py ,windows平臺下打開命令行工具cmd:
輸入命令:py.exe D:/get_cnblogs_news.py https://news.cnblogs.com/n/570992/ 回車
解析:py.exe就不用解釋了,第二個參數爲python腳本文件,第三個參數爲須要爬的源頁面(代碼裏有另外一種考慮,若是你將https://news.cnblogs.com/n/570992/這個url拷貝在系統剪貼板的時候,能夠直接運行:py.exe D:/get_cnblogs_news.py
命令行輸出界面(print)
保存到csv文件的內容
推薦菜鳥python學習書箱或資料:
1)廖雪峯的Python教程,很基礎易懂:http://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000
2)Python編程快速上手 讓繁瑣工做自動化.pdf
文章僅是給本身學習python的日記,若有誤導請批評指正(不喜勿噴),如對您有幫助,榮幸之至。