一直很喜歡看科技新聞,多年來一直混跡於cnBeta,之前西貝的評論區是匿名的,因此評論區很是活躍,各類噴子和段子,不過也確實很歡樂,能夠說那是西貝人氣最旺的時候。然而自從去年網信辦出臺了《互聯網跟帖評論服務管理規定》,要求只有實名認證的用戶,才能進行留言、評論以後,往日的活躍的的評論區瞬間淪陷,人氣大跌。其實說到底,仍是西貝沒有跟上移動互聯網的潮流,至今還止步於PC互聯網時代,網頁廣告太多,而移動應用質量堪憂,體驗極差,雖然有很多第三方的應用,但因爲沒有官方的支持,體驗上仍是不夠好,例如若是官方發佈一些改版,第三方的應用基本都會掛掉。html
因此爲了方便平時閱讀cnBeta的新聞,就打算經過爬蟲把cnBeta的新聞爬下來,自建一個m站,這樣體驗可控,而且沒有廣告(`∀´)Ψ。其實項目很早就完成了,只是如今纔有空(閒情)寫一篇分享出來。前端
本項目爬蟲及服務端github地址:https://github.com/hudingyu/c...vue
前端github地址:https://github.com/hudingyu/c...node
目錄結構git
├── bin // 入口 │ ├── article-list.js // 抓取新聞列表邏輯 │ ├── content.js // 抓取新聞內容邏輯 │ ├── server.js // 服務端程序入口 │ └── spider.js // 爬蟲程序入口 ├── config // 配置文件 ├── dbhelper // 數據庫操做方法目錄 ├── middleware // koa2 中間件 ├── model // mongoDB 集合操做實例 ├── router // koa2 路由文件 ├── utils // 工具函數 ├── package.json
首先看爬蟲程序入口文件,總體邏輯其實很簡單,先抓取新聞列表,存入MongoDB數據庫,每十分鐘抓取一次。新聞列表抓取以後,在數據庫查詢列表中沒有新聞內容的新聞,開始抓取新聞詳情,而後更新到數據庫。github
const articleListInit = require('./article-list'); const articleContentInit = require('./content'); const logger = require('../config/log'); const start = async() => { let articleListRes = await articleListInit(); if (!articleListRes) { logger.warn('news list update failed...'); } else { logger.info('news list update succeed!'); } let articleContentRes = await articleContentInit(); if (!articleContentRes) { logger.warn('article content grab error...'); } else { logger.info('article content grab succeed!'); } }; if (typeof articleListInit === 'function') { start(); } setInterval(start, 600000);
接着看抓取新聞列表的邏輯,由於能夠獲取到新聞列表的Ajax接口,因此直接調用接口獲取列表信息。可是也有個問題,cnBeta新聞列表的縮略圖以及文章裏的的圖片是有防盜鏈的,因此你在本身的網站是無法直接使用它的圖片的,因此我是直接把cnBeta的圖片文件爬下來存到本身的服務器上。數據庫
/** * 初始化方法 抓取文章列表 * @returns {Promise.<*>} */ const articleListInit = async() => { logger.info('grabbing article list starts...'); const pageUrlList = getPageUrlList(listBaseUrl, totalPage); if (!pageUrlList) { return; } let res = await getArticleList(pageUrlList); return res; } /** * 利用分頁接口獲取文章列表 * @param pageUrlList * @returns {Promise} */ const getArticleList = (pageUrlList) => { return new Promise((resolve, reject) => { async.mapLimit(pageUrlList, 1, (pageUrl, callback) => { getCurPage(pageUrl, callback); }, (err, result) => { if (err) { logger.error('get article list error...'); logger.error(err); reject(false); return; } let articleList = _.flatten(result); downloadThumbAndSave(articleList, resolve); }) }) }; /** * 獲取當前頁面的文章列表 * @param pageUrl * @param callback * @returns {Promise.<void>} */ const getCurPage = async(pageUrl, callback) => { let num = Math.random() * 1000 + 1000; await sleep(num); request(pageUrl, (err, response, body) => { if (err) { logger.info('current url went wrong,url address:' + pageUrl); callback(null, null); return; } else { let responseObj = JSON.parse(body); if (responseObj.result && responseObj.result.list) { let newsList = parseObject(articleModel, responseObj.result.list, { pubTime: 'inputtime', author: 'aid', commentCount: 'comments', }); callback(null, newsList); return; } console.log("出錯了"); callback(null, null); } }); }; const downloadThumbAndSave = (list, resolve) => { const host = 'https://static.cnbetacdn.com'; const basepath = './public/data'; if (list.indexOf(null) > -1) { resolve(false); } else { try { async.eachSeries(list, (item, callback) => { let thumb_url = item.thumb.replace(host, ''); item.thumb = thumb_url; if (!fs.exists(thumb_url)) { mkDirs(basepath + thumb_url.substring(0, thumb_url.lastIndexOf('/')), () => { request .get({ url: host + thumb_url, }) .pipe(fs.createWriteStream(path.join(basepath, thumb_url))) .on('error', (err) => { console.log("pipe error", err); }); callback(null, null); }); } }, (err, result) => { if (!err) { saveDB(list, resolve); } }); } catch(err) { console.log(err); } } }; /** * 將文章列表存入數據庫 * @param result * @param callback * @returns {Promise.<void>} */ const saveDB = async(result, callback) => { //console.log(result); let flag = await dbHelper.insertCollection(articleDbModel, result).catch(function (err){ logger.error('data insert falied'); }); if (!flag) { logger.error('news list save failed'); } else { logger.info('list saved!total:' + result.length); } if (typeof callback === 'function') { callback(true); } };
再來看抓取新聞內容的邏輯,這裏是直接根據新聞的sid獲得新聞內容頁的html,而後利用cheerio庫分析獲取咱們須要的新聞內容。固然這裏也是要把文章中的圖片爬下來存入服務器,而且把存入數據庫的新聞內容中圖片連接替換成本身服務器中的URL。json
/** * 抓取正文程序入口 * @returns {Promise.<*>} */ const articleContentInit = async() => { logger.info('grabbing article contents starts...'); let uncachedArticleSidList = await getUncachedArticleList(articleDbModel); // console.log('未緩存的文章:'+ uncachedArticleSidList.join(',')); const res = await batchCrawlArticleContent(uncachedArticleSidList); if (!res) { logger.error('grabbing article contents went wrong...'); } return res; }; /** * 查詢新聞列表獲取sid列表 * @param Model * @returns {Promise.<void>} */ const getUncachedArticleList = async(Model) => { const selectedArticleList = await dbHelper.queryDocList(Model).catch(function (err){ logger.error(err); }); return selectedArticleList.map(item => item.sid); // return selectedArticleList.map(item => item._doc.sid); }; /** * 批量抓取新聞詳情內容 * @param list * @returns {Promise} */ const batchCrawlArticleContent = (list) => { return new Promise((resolve, reject) => { async.mapLimit(list, 3, (sid, callback) => { getArticleContent(sid, callback); }, (err, result) => { if (err) { logger.error(err); reject(false); return; } resolve(true); }); }); }; /** * 抓取單篇文章內容 * @param sid * @param callback * @returns {Promise.<void>} */ const getArticleContent = async(sid, callback) => { let num = Math.random() * 1000 + 1000; await sleep(num); let url = contentBaseUrl + sid + '.htm'; request(url, (err, response, body) => { if (err) { logger.error('grabbing article content went wrong,article url:' + url); callback(null, null); return; } const $ = cheerio.load(body, { decodeEntities: false }); const serverAssetPath = `${serverIp}:${serverPort}/data`; let domainReg = new RegExp('https://static.cnbetacdn.com','g'); let article = { sid, source: $('.article-byline span a').html() || $('.article-byline span').html(), summary: $('.article-summ p').html(), content: $('.articleCont').html().replace(styleReg.reg, styleReg.replace).replace(scriptReg.reg, scriptReg.replace).replace(domainReg, serverAssetPath), }; saveContentToDB(article); let imgList = []; $('.articleCont img').each((index, dom) => { imgList.push(dom.attribs.src); }); downloadImgs(imgList); callback(null, null); }); }; /** * 下載圖片 * @param list */ const downloadImgs = (list) => { const host = 'https://static.cnbetacdn.com'; const basepath = './public/data'; if (!list.length) { return; } try { async.eachSeries(list, (item, callback) => { let num = Math.random() * 500 + 500; sleep(num); if (item.indexOf(host) === -1) return; let thumb_url = item.replace(host, ''); item.thumb = thumb_url; if (!fs.exists(thumb_url)) { mkDirs(basepath + thumb_url.substring(0, thumb_url.lastIndexOf('/')), () => { request .get({ url: host + thumb_url, }) .pipe(fs.createWriteStream(path.join(basepath, thumb_url))) .on("error", (err) => { console.log("pipe error", err); }); callback(null, null); }); } }); } catch(err) { console.log(err); } }; /** * 保存到文章內容到數據庫 * @param article */ const saveContentToDB = (item) => { let flag = dbHelper.updateCollection(articleDbModel, item); if (flag) { logger.info('grabbing article content succeeded:' + item.sid); } };
爬蟲部分差很少就是這樣,還有一點就本身服務器存儲的爬取的圖片天天都會有上百張,時間一長,圖片佔用的存儲空間就會特別大,因此須要定時清理一下,有興趣的能夠看看項目裏面的clear-expire.js文件。後端
其實,雖然這個項目總體並不複雜,可是一套先後端系統搭建起來的過程當中,本身的收穫仍是挺很多的,不少問題的解決須要本身去實踐和思考的,對於性能優化考量也是一個重要的方面。緩存
下面截圖就是我最終完成得m站,界面很清爽,體驗上確實比cnBeta官網要好不少。這樣是平時看科技新聞也確實方便不少。
以上