基於API的爬蟲的通常步驟python
舉例:從豆瓣電影上爬取《摔跤吧,爸爸》電影的評分,並保存到本地數據庫
# 使用工具是Jupyter Notebook 和 Python3json
第一步:利用Python讀取url的核心代碼以下:api
import urllib.request as urlrequest url_visit = 'https://api.douban.com/v2/movie/26387939' crawl_content = urlrequest.urlopen(url_visit).read() print(crawl_content.decode('unicode-escape'))
第二步:利用 python 解析 JSON 代碼 工具
import json json_content = json.loads(crawl_content.decode('utf8')) rating = json_content['rating']['average'] print(rating)
第三步:將數據存到本地網站
id=26387939 rating=json_content['rating']['average'] with open("movie_score.txt", "a") as outputfile: outputfile.write("{} {}\n".format(id, rating))
說明:url
with open("文件名","a") as outputfile:
的形式,這裏文件名能夠根據你的須要自行更改。outputfile.write
表示將數據寫入文件的操做, ("{} {}\n".format(id,rating))
是須要寫入文件的具體內容,使用format()
以固定形式組織id
和rating
的值,放入咱們設定好的位置"{} {}"
中(\n
表示換行)。