圖書信息庫完整解決方案(七)補充說明

一、噹噹的數據遠遠比豆瓣的數據豐富,因此圖書基礎數據應該以噹噹的爲基準,豆瓣的爲完善補充。接口

二、噹噹每一個分類下只能獲取前100頁數據,100以後的數據沒法用技術手段進行抓取。開發

三、沒法抓取到的當當數據,當有須要的時候能夠模擬噹噹的搜索接口,而後從搜索結果中分析對應的圖書數據。基礎

四、第一次抓取噹噹的全站數據完畢後, 我這邊啓動了一個定時任務,每週會抓取各個分類下的前10頁數據,這樣基本能保證最新的圖書也能入庫。定時任務

 

前先後後這個方案基本歷時3-4個月纔算完成開發,雖說不上完美,仍然有部分圖書沒法獲取到詳情或者詳情數據不是太精確,但大部分狀況下仍是能知足業務的需求了。這裏簡單總結下,也是對去年這段忙碌日子的一個回顧。搜索

相關文章
相關標籤/搜索