html5語義標籤以及使用nodejs request庫抓取網站數據

html5語義標籤

Element Description
<section> 定義文檔中的一個章節。
<nav> 定義只包含導航連接的章節。
<article> 定義能夠獨立於內容其他部分的完整獨立內容塊。
<aside> 定義和頁面內容關聯度較低的內容——若是被刪除,剩下的內容仍然很合理。
<header> 定義頁面或章節的頭部。它常常包含 logo、頁面標題和導航性的目錄。
<footer> 定義頁面或章節的尾部。它常常包含版權信息、法律信息連接和反饋建議用的地址。
<address> 定義包含聯繫信息的一個章節。
<main> 定義文檔中主要或重要的內容。

如圖:
圖片描述javascript

使用nodejs request庫抓取網站數據

分析數據

查看請求 如圖:

打開chrome開發者工具crtl+shift+i,打開network面板,選擇XHR
圖片描述
找到須要數據的XHR請求
圖片描述html

分析請求

箭頭所示地方 發現 該數據是使用post請求而且傳值形式如 "form: trendType=01",請求的url也一目瞭然html5

僞造請求

那麼接下來的事情就比較簡單了,咱們只須要根據找到的這個請求格式設置headers,再請求這個api的url便可java

'accept': 'application/json, text/javascript, */*; q=0.01',
  'origin': 'http://www.liangdawang.com',
  'referer': 'http://www.liangdawang.com/',
  'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36'

下載數據

查看request文檔再使用pipe方法將獲取的數據下載到本地保存起來node

request(options, callback).pipe(fs.createWriteStream(options.form.trendType + `.json`));

代碼連接

源碼 https://gitee.com/imgwho/lian...

預覽 https://imgwho.gitee.io/liangyou

相關文章
相關標籤/搜索