def get_price_amazon(isbn): base_url = "https://www.amazon.com/s/ref=nb_sb_noss?url=search-alias%3Daps&field-keywords=" url = base_url + str(isbn) page = urlopen(url) soup = BeautifulSoup(page, 'lxml') page.close() price_regexp = re.compile("\$[0-9]+(\.[0-9]{2})?") price = soup.find(text=price_regexp) return [isbn, price]
book_info_data = pd.read_csv('books.csv') price_data = pd.read_csv('prices.csv') result = pd.merge(book_info_data, price_data, on='isbn') result.to_csv('result.csv', index=False, header=True, columns=['isbn', 'title', 'price'])
大數據,大數據分析、BeautifulSoup,Beautiful Soup入門,數據挖掘,數據分析,數據處理,pandas,網絡爬蟲,web scraper,python excel,python寫入excel數據,python處理csv文件 python操做Excel,excel讀寫 經過上一篇隨筆的處理,咱們已經拿到了書的書名和ISBN碼。(網絡爬蟲: 從allitebooks.com抓取書籍信息並從amazon.com抓取價格(2): 抓取allitebooks.com書籍信息及ISBN碼) 接下來將經過ISBN碼去amazon.com獲取每本書對應的價格。 1、瞭解須要和分析網站 經過分析amazon.com得知,以ISBN碼做爲搜索關鍵字可查找到對應的書。 結果頁碼就有這本書的價格,既然價格是以$符號開頭,那就能夠經過正則表達式獲得價格。經過上一篇隨筆的處理,咱們已經拿到了書的書名和ISBN碼。(網絡爬蟲: 從allitebooks.com抓取書籍信息並從amazon.com抓取價格(2): 抓取allitebooks.com書籍信息及ISBN碼) 接下來將經過ISBN碼去amazon.com獲取每本書對應的價格。 1、瞭解須要和分析網站 經過分析amazon.com得知,以ISBN碼做爲搜索關鍵字可查找到對應的書。 結果頁碼就有這本書的價格,既然價格是以$符號開頭,那就能夠經過正則表達式獲得價格。經過上一篇隨筆的處理,咱們已經拿到了書的書名和ISBN碼。(網絡爬蟲: 從allitebooks.com抓取書籍信息並從amazon.com抓取價格(2): 抓取allitebooks.com書籍信息及ISBN碼) 接下來將經過ISBN碼去amazon.com獲取每本書對應的價格。 1、瞭解須要和分析網站 經過分析amazon.com得知,以ISBN碼做爲搜索關鍵字可查找到對應的書。 結果頁碼就有這本書的價格,既然價格是以$符號開頭,那就能夠經過正則表達式獲得價格。經過上一篇隨筆的處理,咱們已經拿到了書的書名和ISBN碼。(網絡爬蟲: 從allitebooks.com抓取書籍信息並從amazon.com抓取價格(2): 抓取allitebooks.com書籍信息及ISBN碼) 接下來將經過ISBN碼去amazon.com獲取每本書對應的價格。 1、瞭解須要和分析網站 經過分析amazon.com得知,以ISBN碼做爲搜索關鍵字可查找到對應的書。 結果頁碼就有這本書的價格,既然價格是以$符號開頭,那就能夠經過正則表達式獲得價格。經過上一篇隨筆的處理,咱們已經拿到了書的書名和ISBN碼。(網絡爬蟲: 從allitebooks.com抓取書籍信息並從amazon.com抓取價格(2): 抓取allitebooks.com書籍信息及ISBN碼) 接下來將經過ISBN碼去amazon.com獲取每本書對應的價格。 1、瞭解須要和分析網站 經過分析amazon.com得知,以ISBN碼做爲搜索關鍵字可查找到對應的書。 結果頁碼就有這本書的價格,既然價格是以$符號開頭,那就能夠經過正則表達式獲得價格。經過上一篇隨筆的處理,咱們已經拿到了書的書名和ISBN碼。(網絡爬蟲: 從allitebooks.com抓取書籍信息並從amazon.com抓取價格(2): 抓取allitebooks.com書籍信息及ISBN碼) 接下來將經過ISBN碼去amazon.com獲取每本書對應的價格。 1、瞭解須要和分析網站 經過分析amazon.com得知,以ISBN碼做爲搜索關鍵字可查找到對應的書。 結果頁碼就有這本書的價格,既然價格是以$符號開頭,那就能夠經過正則表達式獲得價格。html