今天在瀏覽網站的時候,突然一個莫名的連接指引着我跳轉到了半次元網站 https://bcy.net/
打開以後,發現也沒有什麼有意思的內容,職業的敏感讓我瞬間聯想到了 cosplay
,這種網站必然會有這個的存在啊,因而乎,我準備好個人大爬蟲了。python
把上面的連接打開以後,被我發現了吧,就知道個人第八感不錯滴。接下來就是找入口,必定要找到圖片連接的入口才能夠作下面的操做
mongodb
這個頁面不斷往下拖拽,頁面會一直加載,當時當你拖拽一會,就停下來了,就是這個時機
數據庫
發現入口,在我實際的操做中,其實還發現了不少其餘的入口,這個就不一一的解釋了,趕忙上車,進入 view more
以後,發現了頁面依舊是一個下拉刷新的佈局方式,專業術語 瀑布流
。json
打開開發者工具,切換到network
以後,發現 不少xhr
請求,發現這個,就表明這個網站很容易爬取了數組
提取待爬取的連接,分析規律多線程
https://bcy.net/circle/timeline/loadtag?since=0&grid_type=timeline&tag_id=1482&sort=hot https://bcy.net/circle/timeline/loadtag?since=26499.779&grid_type=timeline&tag_id=1482&sort=hot https://bcy.net/circle/timeline/loadtag?since=26497.945&grid_type=timeline&tag_id=1482&sort=hot
發現只有一個參數在變,並且這變化好像沒有任何規律能夠尋找,沒事,看數據,你就能夠發現其中的奧妙了app
這個網站的原理很簡單,就是經過不斷獲取每次數據的最後一條的since
而後獲取接下來的數據,那麼咱們按照它的規律實現代碼就能夠了,不要多線程了,這種規律是沒有辦法進行實操的。
此次的數據我把它存儲到mongodb
裏面,由於沒有辦法一次所有獲取到,因此可能須要下次在繼續使用python爬蟲
if __name__ == '__main__': ### mongodb 的一些基本操做 DATABASE_IP = '127.0.0.1' DATABASE_PORT = 27017 DATABASE_NAME = 'sun' start_url = "https://bcy.net/circle/timeline/loadtag?since={}&grid_type=timeline&tag_id=399&sort=recent" client = MongoClient(DATABASE_IP, DATABASE_PORT) db = client.sun db.authenticate("dba", "dba") collection = db.bcy # 準備插入數據 #####################################3333 get_data(start_url,collection)
獲取網頁數據這個地方,由咱們前面的經驗就變得很簡單了函數
## 半次元COS圖爬取-獲取數據函數 def get_data(start_url,collection): since = 0 while 1: try: with requests.Session() as s: response = s.get(start_url.format(str(since)),headers=headers,timeout=3) res_data = response.json() if res_data["status"] == 1: data = res_data["data"] # 獲取Data數組 time.sleep(0.5) ## 數據處理 since = data[-1]["since"] # 獲取20條數據的最後一條json數據中的since ret = json_handle(data) # 代碼實如今下面 try: print(ret) collection.insert_many(ret) # 批量出入數據庫 print("上述數據插入成功!!!!!!!!") except Exception as e: print("插入失敗") print(ret) ## except Exception as e: print("!",end="異常,請注意") print(e,end=" ") else: print("循環完畢")
網頁解析代碼工具
# 對JSON數據進行處理 def json_handle(data): # 提取關鍵數據 list_infos = [] for item in data: item = item["item_detail"] try: avatar = item["avatar"] # 用戶頭像 item_id = item["item_id"] # 圖片詳情頁面 like_count = item["like_count"] # 喜歡數目 pic_num = item["pic_num"] if "pic_num" in item else 0 # 圖片總數 reply_count =item["reply_count"] share_count =item["share_count"] uid = item["uid"] plain = item["plain"] uname = item["uname"] list_infos.append({"avatar":avatar, "item_id":item_id, "like_count":like_count, "pic_num":pic_num, "reply_count":reply_count, "share_count":share_count, "uid":uid, "plain":plain, "uname":uname}) except Exception as e: print(e) continue return list_infos
到如今就實現了,代碼跑起來
小編整理一套Python資料和PDF,有須要Python學習資料能夠加學習羣:1004391443,反正閒着也是閒着呢,不如學點東西啦~~