去年由於忙一個圖書漂流的項目,大概花了三個月的時間,完成了圖書信息庫的創建。數據庫
截止目前爲止,已經收錄了200多萬條的圖書數據,而且每週還在自動更新中,打算將這個項目完整的整理出來,算階段性工做的一個總結吧。代理
方案主要功能以下:blog
一、實現了按照噹噹圖書分類, 抓取每一個分類下前100頁圖書數據的功能。ip
二、支持按照ISBN獲取圖書詳情信息, 若是庫裏不存在則優先從噹噹處獲取圖書信息,若是噹噹獲取不到再從豆瓣獲取。若是噹噹和豆瓣都存在這本書,則綜合二者的圖書信息入庫。博客
三、技術難點:主要有兩部分,一個是如何解析噹噹網頁,從繁雜的網頁結構裏取出須要的圖書詳情信息;另外一個是如何避免因長時間的抓取被噹噹封掉ip,這裏採用了一個巧妙的機制,既能不花錢又能創建起本身的代理ip庫。im
接下來會慢慢來梳理。技術
PS:糾結來糾結去,仍是感受博客園的編輯和顯示比CSDN更友好。總結
數據庫截圖:數據