圖書信息庫完整解決方案(一)概述

  去年由於忙一個圖書漂流的項目,大概花了三個月的時間,完成了圖書信息庫的創建。數據庫

  截止目前爲止,已經收錄了200多萬條的圖書數據,而且每週還在自動更新中,打算將這個項目完整的整理出來,算階段性工做的一個總結吧。代理

  方案主要功能以下:blog

  一、實現了按照噹噹圖書分類, 抓取每一個分類下前100頁圖書數據的功能。ip

  二、支持按照ISBN獲取圖書詳情信息, 若是庫裏不存在則優先從噹噹處獲取圖書信息,若是噹噹獲取不到再從豆瓣獲取。若是噹噹和豆瓣都存在這本書,則綜合二者的圖書信息入庫。博客

  三、技術難點:主要有兩部分,一個是如何解析噹噹網頁,從繁雜的網頁結構裏取出須要的圖書詳情信息;另外一個是如何避免因長時間的抓取被噹噹封掉ip,這裏採用了一個巧妙的機制,既能不花錢又能創建起本身的代理ip庫。im

  接下來會慢慢來梳理。技術

  PS:糾結來糾結去,仍是感受博客園的編輯和顯示比CSDN更友好。總結

 

數據庫截圖:數據

相關文章
相關標籤/搜索