在使用 NodeJs 採集其餘網站網頁時遇到的,在獲取源代碼後發現裏面原來的中文被轉成了 Unicode(UTF8) 編碼的中文(如:&# [xxx]),這固然不是真正想要的中文實體html
解決方案:npm
使用 html-entities 對字符進行解碼網站
安裝:ui
npm install --save html-entities
使用:編碼
var Entities = require('html-entities').XmlEntities; entities = new Entities(); var str = '<p>&# [xxx]</p>'; console.log(entities.decode(str));