這篇文章,主要用於收集整理經常使用的Puppeteer
的一些經常使用API操做,自動化操做,爬蟲測試,基礎使用等等。固然至因而什麼是Puppeteer
呢,咱們來看下官方介紹:Puppeteer
是谷歌官方出品的一個經過DevTools
協議控制headless Chrome
的Node
庫。能夠經過Puppeteer的提供的api直接控制Chrome模擬大部分用戶操做來進行UI Test
或者做爲爬蟲訪問頁面來收集數據。 css
首先備註好中文API文檔地址:點擊打開Puppeteer中文文檔API查看訪問URL地址 官方API文檔地址:github.com/GoogleChrom… 比較不錯的新手文檔資料參考:小一輩無產階級碼農的《Puppeteer 入門教程》html
cnpm i puppeteer -S
複製代碼
安裝的時候須要注意deshi ,Puppeteer
安裝時自帶一個最新版本的Chromium,能夠經過設置環境變量或者npm config中的PUPPETEER_SKIP_CHROMIUM_DOWNLOAD
跳過下載。若是不下載的話,啓動時能夠經過puppeteer.launch([options])配置項中的executablePath
指定Chromium的位置。git
咱們能夠經過操做Browser
實例來操做瀏覽器做出對應的事情,好比生成頁面,窗口截圖、生成pdf文件(文字可複製),獲取頁面數據等等,這些都是能夠作到的。github
const puppeteer = require('puppeteer');
(async () => {
const browser = await puppeteer.launch();
const page = await browser.newPage();
await page.goto('http://rennaiqian.com');
await page.screenshot({path: 'example.png'});
await page.pdf({path: 'example.pdf', format: 'A4'});
await browser.close();
})();
複製代碼
固然,咱們也能夠新增一個headless:true
,不打開瀏覽器就能執行咱們的各類操做,默認後臺運行,修改以下:npm
const browser = await puppeteer.launch({headless:false})
複製代碼
new browser.newPage()
: 這個方法能夠打開一個新選項卡並返回選項卡的實例page,經過page上的各類方法能夠對頁面進行經常使用操做。上述代碼就進行了截屏和打印pdf的操做。 json
page.evaluate(pageFunction, ...args)
來實現這一目的,向頁面注入咱們的自定義函數:
const puppeteer = require('puppeteer');
(async () => {
const browser = await puppeteer.launch();
const page = await browser.newPage();
await page.goto('http://rennaiqian.com');
// Get the "viewport" of the page, as reported by the page.
const dimensions = await page.evaluate(() => {
// 在這裏能夠進行DOM操做
return {
width: document.documentElement.clientWidth,
height: document.documentElement.clientHeight,
deviceScaleFactor: window.devicePixelRatio
};
});
console.log('Dimensions:', dimensions);
await browser.close();
})();
複製代碼
固然,這個puppeteer
這個框架,用的最多的地方就是在數據爬蟲,頁面模擬點擊操做,用戶名密碼自動輸入,表單提交,cookie無密碼登陸等等這些操做;api
這些操做呢,基本上都須要識別當前的設備,因此咱們如何來模擬咱們的當前設備呢?咱們能夠經過page.emulate(mobile)
來模擬咱們所須要的設備,以下所示:數組
const puppeteer = require('puppeteer');
const devices = require('puppeteer/DeviceDescriptors'); // puppeteer內置的一些常見設備的模擬參數
const iPhone = devices['iPhone 6'];
puppeteer.launch().then(async browser => {
const page = await browser.newPage();
await page.emulate(iPhone);
await page.goto('https://www.example.com');
// other actions...
await browser.close();
});
複製代碼
使用puppeteer
的童鞋大多數都是奔着,自動化測試,使用腳本自動操做頁面內容來着,爬取動態加載網頁;因此呢,模擬點擊輸入整個功能是很是重要,且十分方便的,很是相似於selenium
框架,可是比這個框架配置要簡單得多,直接安裝就可使用了,好,接下來咱們就來看看這個點擊輸入又是怎麼完成的呢?瀏覽器
首先咱們須要對點擊輸入分一下類別,分紅 ==鍵盤==和==鼠標==操做,那咱們分別來看下有哪些鍵盤和鼠標操做?bash
首先咱們列出經常使用的一些API,再羅列出經常使用的一些小案例:
接下來展現一些經常使用到的一些小案例:
page.keyboard.press("Shift"); //按下 Shift 鍵
page.keyboard.sendCharacter('嗨'); // 輸入一個字符
page.keyboard.type('Hello'); // 一次輸入完成
page.keyboard.type('World', {delay: 100}); // 像用戶同樣慢慢輸入
複製代碼
在咱們爬蟲的過程當中,常常會遇到各式各樣請求頭的問題,比較常常遇到的就是user-agent
等等這些參數,因此若是咱們能夠直接修改這些配置的話,就能夠很好的進行爬蟲工做了;並且呢,這個puppeteer
同時給咱們提供了一些 API
可讓咱們修改瀏覽器終端的配置:
再接着,咱們來看一下一些經常使用的小案例:
page.setViewport({width:1920, height:1080}); //設置視窗大小爲 1920x1080
page.setUserAgent('Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.90 Safari/537.36');
page.emulateMedia('print'); //設置打印機媒體樣式
複製代碼
除此以外咱們還能夠模擬非 PC 機設備, 好比下面這段代碼模擬 iPhone 6
訪問百度:
const puppeteer = require('puppeteer');
const devices = require('puppeteer/DeviceDescriptors');
const iPhone = devices['iPhone 6'];
puppeteer.launch().then(async browser => {
const page = await browser.newPage();
await page.emulate(iPhone);
await page.goto('https://www.baidu.com');
// other actions...
await browser.close();
});
複製代碼
這裏呢,咱們來探討下,如何使用pupeteer
來獲取頁面的元素,以及元素裏的內容及屬性;由於這也是使用很是很是頻繁的操做,可是呢,估計你們都比較熟悉,因此呢,把它放在後面進行講解;
(1) Page.$(selector)
獲取單個元素,底層是調用的是 document.querySelector()
, 因此選擇器的 selector
格式遵循 css
選擇器規範
let inputElement = await page.$("#search", input => input);
//下面寫法等價
let inputElement = await page.$('#search');
複製代碼
(2) Page.$$(selector)
獲取一組元素,底層調用的是 document.querySelectorAll()
. 返回 Promise(Array(ElemetHandle))
元素數組.
const links = await page.$$("a");
//下面寫法等價
const links = await page.$$("a", links => links);
複製代碼
Puppeteer
獲取元素屬性跟咱們平時寫前段的js的邏輯有點不同,按照一般的邏輯,應該是現獲取元素,而後在獲取元素的屬性。可是上面咱們知道 獲取元素的 API 最終返回的都是 ElemetHandle
對象,而你去查看 ElemetHandle 的 API 你會發現,它並無獲取元素屬性的 API.
而 Puppeteer
專門提供了一套獲取屬性的 API, Page.$eval()
和 Page.$$eval()
const value = await page.$eval('input[name=search]', input => input.value);
const href = await page.$eval('#a", ele => ele.href);
const content = await page.$eval('.content', ele => ele.outerHTML);
複製代碼
執行自定義腳本也是目前來講爬蟲中,比較經常使用的一些功能,經過自定義腳本去拿到接口的簽名等等,都是比較一種很是不錯的爬蟲方式,好,那咱們就一塊兒來看看如何向頁面動態植入自定義腳本呢?
Puppeteer
的 Page
對象提供了一系列 evaluate 方法,你能夠經過他們來執行一些自定義的 js 代碼,主要提供了下面三個 API
這個page.evaluate
返回一個可序列化的普通對象,pageFunction 表示要在頁面執行的函數, args
表示傳入給 pageFunction
的參數, 下面的 pageFunction 和 args 表示一樣的意思。
const result = await page.evaluate(() => {
return Promise.resolve(8 * 7);
});
console.log(result); // 56
複製代碼
這個evaluateHandle
在 Page 上下文執行一個 pageFunction, 返回 JSHandle 實體
const aWindowHandle = await page.evaluateHandle(() => Promise.resolve(window));
aWindowHandle; // Handle for the window object.
const aHandle = await page.evaluateHandle('document'); // Handle for the 'document'.
複製代碼
下面這段代碼實現獲取頁面的動態(包括js動態插入的元素) HTML 代碼:
const aHandle = await page.evaluateHandle(() => document.body);
const resultHandle = await page.evaluateHandle(body => body.innerHTML, aHandle);
console.log(await resultHandle.jsonValue());
await resultHandle.dispose();
複製代碼
Page.exposeFunction
,這個 API 用來在頁面註冊全局函數,很是有用: 由於有時候須要在頁面處理一些操做的時候須要用到一些函數,雖然能夠經過 Page.evaluate()
API 在頁面定義函數,好比下面代碼實現給 Page 上下文的 window 對象添加 md5 函數:
const puppeteer = require('puppeteer');
const crypto = require('crypto');
puppeteer.launch().then(async browser => {
const page = await browser.newPage();
page.on('console', msg => console.log(msg.text));
await page.exposeFunction('md5', text =>
crypto.createHash('md5').update(text).digest('hex')
);
await page.evaluate(async () => {
// use window.md5 to compute hashes
const myString = 'PUPPETEER';
const myHash = await window.md5(myString);
console.log(`md5 of ${myString} is ${myHash}`);
});
await browser.close();
});
複製代碼
能夠看出,Page.exposeFunction API
使用起來是很方便的,也很是有用,在好比給 window
對象註冊 readfile
全局函數:
const puppeteer = require('puppeteer');
const fs = require('fs');
puppeteer.launch().then(async browser => {
const page = await browser.newPage();
page.on('console', msg => console.log(msg.text));
await page.exposeFunction('readfile', async filePath => {
return new Promise((resolve, reject) => {
fs.readFile(filePath, 'utf8', (err, text) => {
if (err)
reject(err);
else
resolve(text);
});
});
});
await page.evaluate(async () => {
// use window.readfile to read contents of a file
const content = await window.readfile('/etc/hosts');
console.log(content);
});
await browser.close();
});
複製代碼
等待執行相關的 API 主要由 Page.waitFor
所提供
page.waitFor(selectorOrFunctionOrTimeout[, options[, …args]])
,下面三個的綜合 APIpage.waitForFunction(pageFunction[, options[, …args]])
,等待 pageFunction 執行完成以後page.waitForNavigation(options)
,等待頁面基本元素加載完以後,好比同步的 HTML, CSS, JS 等代碼page.waitForSelector(selector[, options])
,等待某個選擇器的元素加載以後,這個元素能夠是異步加載的,這個 API 很是有用,你懂的。好比我想獲取某個經過 js 異步加載的元素,那麼直接獲取確定是獲取不到的。這個時候就可使用 page.waitForSelector
來解決:
await page.waitForSelector('.gl-item'); //等待元素加載以後,不然獲取不到異步加載的元素
const links = await page.$$eval('.gl-item > .gl-i-wrap > .p-img > a', links => {
return links.map(a => {
return {
href: a.href.trim(),
name: a.title
}
});
});
複製代碼
經過 page.getMetrics()
能夠獲得一些頁面性能數據, 捕獲網站的時間線跟蹤,以幫助診斷性能問題。
總的來講, puppeteer
是一款很是不錯的 headless
工具,操做簡單,功能強大。用來作UI自動化測試,和一些小工具都是很不錯的。