本文的文字及圖片來源於網絡,僅供學習、交流使用,不具備任何商業用途,版權歸原做者全部,若有問題請及時聯繫咱們以做處理。html
做者: LSGOGrouppython
PS:若有須要Python學習資料的小夥伴能夠加點擊下方連接自行獲取git
http://note.youdao.com/noteshare?id=3054cce4add8a909e784ad934f956cefgithub
學習了python基本語法後,對爬蟲產生了很大的興趣,廢話很少說,今天來爬取網易新聞,實戰出真知。web
打開網易新聞 能夠發現新聞分爲這樣的幾個板塊:chrome
此次選擇國內板塊來爬取文章。瀏覽器
環境:python3服務器
編譯器:PyCharm網絡
安裝 selenium 針對三大瀏覽器驅動 driverapp
下載地址
chromedriver:https://code.google.com/p/chromedriver/downloads/list
Firefox 的驅動 geckodriver:https://github.com/mozilla/geckodriver/releases/
IE 的驅動 IEdrive:http://www.nuget.org/packages/Selenium.WebDriver.IEDriver/
瞭解網頁
網頁絢麗多彩,美輪美奐,如同一幅水彩畫。爬取數據首先須要知道所須要抓取的數據是怎樣的呈現的,就像學做一幅畫,開始前你要知道這幅畫是用什麼畫出來的,鉛筆仍是水彩筆…可能種類是多樣的,可是放到網頁信息來講這兒只有兩種呈現方式:
HTML
JSON
HTML是用來描述網頁的一種語言
JSON是一種輕量級的數據交換格式
爬取網頁信息其實就是向網頁提出請求,服務器就會將數據反饋給你
導入須要的用的模塊和庫:
1 from bs4 import BeautifulSoup 2 import time 3 import def_text_save as dts 4 import def_get_data as dgd 5 from selenium import webdriver 6 from selenium.webdriver.common.keys import Keys 7 from selenium.webdriver.common.action_chains import ActionChains #引入ActionChains鼠標操做類
獲取網頁信息須要發送請求,requests 能幫咱們很好的完成這件事,可是仔細觀察發現網易新聞是動態加載,requests 返回的是即時信息,網頁部分稍後加載出來的數據沒有返回,這種狀況 selenium 可以幫助咱們獲得更多的數據,咱們將 selenium 理解爲一個自動化測試工具就好,Selenium 測試直接運行在瀏覽器中,就像真正的用戶在操做同樣。
我使用的瀏覽器爲Firefox
1 browser = webdriver.Firefox()#根據瀏覽器切換 2 browser.maximize_window()#最大化窗口 3 browser.get('http://news.163.com/domestic/')
這樣咱們就能驅動瀏覽器自動登錄網易新聞頁面
咱們的目標天然是一次將國內板塊爬取下來,觀察網頁,在網頁不斷向下刷時,新的新聞纔會加載出來,到最下面甚至還有須要點擊按鈕才能刷新:
這時使用 selenium 就能展示其優點:自動化,模擬鼠標鍵盤操做:
1 diver.execute_script("window.scrollBy(0,5000)") 2 #使網頁向下拉,括號內爲每次下拉數值
在網頁中右鍵點擊加載更多按鈕,點擊查看元素,能夠看到
經過這個 class 就能夠定位到按鈕,碰到按鈕時,click 事件就能幫助咱們自動點擊按鈕完成網頁刷新
1 # 爬取板塊動態加載部分源代碼 2 3 info1=[] 4 info_links=[] #存儲文章內容連接 5 try: 6 while True : 7 if browser.page_source.find("load_more_btn") != -1 : 8 browser.find_element_by_class_name("load_more_btn").click() 9 browser.execute_script("window.scrollBy(0,5000)") 10 time.sleep(1) 11 except: 12 url = browser.page_source#返回加載徹底的網頁源碼 13 browser.close()#關閉瀏覽器
獲取有用信息
簡單來講,BeautifulSoup 是 python 的一個庫,最主要的功能是從網頁抓取數據,能減輕菜鳥的負擔。 經過 BeautifulSoup 解析網頁源碼,在加上附帶的函數,咱們能輕鬆取出想要的信息,例如:獲取文章標題,標籤以及文本內容超連接
一樣在文章標題區域右鍵點擊查看元素:
觀察網頁結構發現每個div標籤class=「news_title" 下都是文章的標題和超連接。soup.find_all()函數能幫咱們找到咱們想要的所有信息,這一級結構下的內容就能一次摘取出來。最後經過字典,把標籤信息,挨個個取出來。
1 info_total=[] 2 def get_data(url): 3 soup=BeautifulSoup(url,"html.parser") 4 titles=soup.find_all('div','news_title') 5 labels=soup.find('div','ns_area second2016_main clearfix').find_all('div','keywords') 6 for title, label in zip(titles,labels ): 7 data = { 8 '文章標題': title.get_text().split(), 9 '文章標籤':label.get_text().split() , 10 'link':title.find("a").get('href') 11 } 12 info_total.append(data) 13 return info_total
4. 獲取新聞內容
自此,新聞連接已經被咱們取出來存到列表裏了,如今須要作的就是利用連接獲得新聞主題內容。新聞主題內容頁面爲靜態加載方式,requests 能輕鬆處理:
1 def get_content(url): 2 info_text = [] 3 info=[] 4 adata=requests.get(url) 5 soup=BeautifulSoup(adata.text,'html.parser') 6 try : 7 articles = soup.find("div", 'post_header').find('div', 'post_content_main').find('div', 'post_text').find_all('p') 8 except : 9 articles = soup.find("div", 'post_content post_area clearfix').find('div', 'post_body').find('div', 'post_text').find_all( 10 'p') 11 for a in articles: 12 a=a.get_text() 13 a= ' '.join(a.split()) 14 info_text.append(a) 15 return (info_text)
使用 try except的緣由在於,網易新聞文章在某個時間段先後,文本信息所處位置標籤不同,對不一樣的狀況應做出不一樣的處理。
最後遍歷整個列表取出所有文本內容:
1 for i in info1 : 2 info_links.append(i.get('link')) 3 x=0 #控制訪問文章目錄 4 info_content={}# 存儲文章內容 5 for i in info_links: 6 try : 7 info_content['文章內容']=dgd.get_content(i) 8 except: 9 continue 10 s=str(info1[x]["文章標題"]).replace('[','').replace(']','').replace("'",'').replace(',','').replace('《','').replace('》','').replace('/','').replace(',',' ') 11 s= ''.join(s.split()) 12 file = '/home/lsgo18/PycharmProjects/網易新聞'+'/'+s 13 print(s) 14 dts.text_save(file,info_content['文章內容'],info1[x]['文章標籤']) 15 x = x + 1
存儲數據到本地txt文件
python 提供了處理文件的函數open(),第一個參數爲文件路徑,第二爲文件處理模式,"w" 模式爲只寫(不存在文件則建立,存在則清空內容)
1 def text_save(filename, data,lable): #filename爲寫入CSV文件的路徑 2 file = open(filename,'w') 3 file.write(str(lable).replace('[','').replace(']','')+'\n') 4 for i in range(len(data)): 5 s =str(data[i]).replace('[','').replace(']','')#去除[],這兩行按數據不一樣,能夠選擇 6 s = s.replace("'",'').replace(',','') +'\n' #去除單引號,逗號,每行末尾追加換行符 7 file.write(s) 8 file.close() 9 print("保存文件成功")
一個簡單的爬蟲至此就編寫成功: