網絡爬蟲: 從allitebooks.com抓取書籍信息並從amazon.com抓取價格(3): 抓取amazon.com價格


接下來將經過ISBN碼去amazon.com獲取每本書對應的價格。

1、瞭解須要和分析網站

經過分析amazon.com得知, 以ISBN碼做爲搜索關鍵字可查找到對應的書
結果頁碼就有這本書的價格,既然價格是以$符號開頭,那就能夠經過正則表達式獲得價格。
 
經過正則表達式匹配價格代碼:
def get_price_amazon(isbn):
    base_url = "https://www.amazon.com/s/ref=nb_sb_noss?url=search-alias%3Daps&field-keywords="
    url = base_url + str(isbn)
    page = urlopen(url)
    soup = BeautifulSoup(page, 'lxml')
    page.close()
    price_regexp = re.compile("\$[0-9]+(\.[0-9]{2})?")
    price = soup.find(text=price_regexp)
    return [isbn, price]

 

上一篇隨筆中已經獲得了全部書籍的ISBN碼,遍歷全部的ISBN碼傳入get_price_amazon()方法便可獲取全部書籍的價格,運行結果:

2、將兩部分結果數據合併

前兩天剛學過數據處理( 利用Python進行數據分析 基礎系列隨筆彙總),爲了練練手,這裏 經過pandas將兩部分數據合併起來:
book_info_data = pd.read_csv('books.csv')
price_data = pd.read_csv('prices.csv')
result = pd.merge(book_info_data, price_data, on='isbn')
result.to_csv('result.csv', index=False, header=True, columns=['isbn', 'title', 'price'])

 

result.csv文件結果:

 
咱們處於大數據時代,對數據處理感興趣的朋友歡迎查看另外一個系列隨筆: 利用Python進行數據分析 基礎系列隨筆彙總
 
接下來打算學習Scrapy庫,Scrapy是一個採集工具,它能夠幫你大幅下降網頁查找和識別工做,輕鬆採集一個或多個域名的信息。有興趣的朋友歡迎關注本博客,也歡迎你們留言進行討論。

大數據,大數據分析、BeautifulSoup,Beautiful Soup入門,數據挖掘,數據分析,數據處理,pandas,網絡爬蟲,web scraper,python excel,python寫入excel數據,python處理csv文件 python操做Excel,excel讀寫 經過上一篇隨筆的處理,咱們已經拿到了書的書名和ISBN碼。(網絡爬蟲: 從allitebooks.com抓取書籍信息並從amazon.com抓取價格(2): 抓取allitebooks.com書籍信息及ISBN碼) 接下來將經過ISBN碼去amazon.com獲取每本書對應的價格。 1、瞭解須要和分析網站 經過分析amazon.com得知,以ISBN碼做爲搜索關鍵字可查找到對應的書。 結果頁碼就有這本書的價格,既然價格是以$符號開頭,那就能夠經過正則表達式獲得價格。經過上一篇隨筆的處理,咱們已經拿到了書的書名和ISBN碼。(網絡爬蟲: 從allitebooks.com抓取書籍信息並從amazon.com抓取價格(2): 抓取allitebooks.com書籍信息及ISBN碼) 接下來將經過ISBN碼去amazon.com獲取每本書對應的價格。 1、瞭解須要和分析網站 經過分析amazon.com得知,以ISBN碼做爲搜索關鍵字可查找到對應的書。 結果頁碼就有這本書的價格,既然價格是以$符號開頭,那就能夠經過正則表達式獲得價格。經過上一篇隨筆的處理,咱們已經拿到了書的書名和ISBN碼。(網絡爬蟲: 從allitebooks.com抓取書籍信息並從amazon.com抓取價格(2): 抓取allitebooks.com書籍信息及ISBN碼) 接下來將經過ISBN碼去amazon.com獲取每本書對應的價格。 1、瞭解須要和分析網站 經過分析amazon.com得知,以ISBN碼做爲搜索關鍵字可查找到對應的書。 結果頁碼就有這本書的價格,既然價格是以$符號開頭,那就能夠經過正則表達式獲得價格。經過上一篇隨筆的處理,咱們已經拿到了書的書名和ISBN碼。(網絡爬蟲: 從allitebooks.com抓取書籍信息並從amazon.com抓取價格(2): 抓取allitebooks.com書籍信息及ISBN碼) 接下來將經過ISBN碼去amazon.com獲取每本書對應的價格。 1、瞭解須要和分析網站 經過分析amazon.com得知,以ISBN碼做爲搜索關鍵字可查找到對應的書。 結果頁碼就有這本書的價格,既然價格是以$符號開頭,那就能夠經過正則表達式獲得價格。經過上一篇隨筆的處理,咱們已經拿到了書的書名和ISBN碼。(網絡爬蟲: 從allitebooks.com抓取書籍信息並從amazon.com抓取價格(2): 抓取allitebooks.com書籍信息及ISBN碼) 接下來將經過ISBN碼去amazon.com獲取每本書對應的價格。 1、瞭解須要和分析網站 經過分析amazon.com得知,以ISBN碼做爲搜索關鍵字可查找到對應的書。 結果頁碼就有這本書的價格,既然價格是以$符號開頭,那就能夠經過正則表達式獲得價格。經過上一篇隨筆的處理,咱們已經拿到了書的書名和ISBN碼。(網絡爬蟲: 從allitebooks.com抓取書籍信息並從amazon.com抓取價格(2): 抓取allitebooks.com書籍信息及ISBN碼) 接下來將經過ISBN碼去amazon.com獲取每本書對應的價格。 1、瞭解須要和分析網站 經過分析amazon.com得知,以ISBN碼做爲搜索關鍵字可查找到對應的書。 結果頁碼就有這本書的價格,既然價格是以$符號開頭,那就能夠經過正則表達式獲得價格。html

相關文章
相關標籤/搜索