爬蟲學習筆記

1.判斷要爬取的頁面是html結構仍是json結構,就用檢查裏找到的節點屬性名,去源代碼裏面搜索。查看網頁源代碼,若是是有清楚html標籤的則爲html結構,如:html

clipboard.png

而若是是這樣的,則爲json,如:
clipboard.pngjson

html結合直接使用網頁標題做爲url,使用html = etree.HTML(res.text)來整理頁面結構;
而若是是json的話,則須要到「檢查」-「NetWork」裏面找到對應的加載頁面,使用加載頁面對應的連接做爲url,而後使用json_data = json.loads(res.text)整理頁面結構。url

相關文章
相關標籤/搜索