頁面數據採集——網絡爬蟲實戰（ASP.NET Web 博客園爲例）

時間 2020-12-25

標籤 javascript html 前端 java jquery ajax 正則表達式數據庫 json windows 欄目網絡爬蟲简体版

原文原文鏈接

年輕人不講武德

相信不少朋友都有這種苦惱：本身的文章被搬運了！javascript

　　你上午在博客園、CSDN、知乎、簡書等平臺發佈的文章，下午去百度搜索出來一大堆如出一轍的內容出來html

有武德的給你【標明出處】（標明文章來自哪兒，附上連接），沒武德的不只沒標明出處，他還本身表示爲原創（心裏一萬頭草泥馬在奔騰~）。前端

　　文章搬運我我的是歡迎的，可是須要註明出處。對於這種狀況很難說，褒貶不一，我的見解不一樣，java

對於我來講，確定是想要更多人看到個人文章啦（心裏竊喜~）。jquery

　　好比下圖左邊第一個是我2019年2月份發佈的一篇文章到如今爲止搬運次數超過50+了（能被別人搬運也是對本身的一種確定），ajax

釋語　

　　對於外行的朋友來講，感受雲裏霧裏的，不明覺厲。正則表達式

　　對於內行的朋友來講，就是一個簡單的爬蟲，獲取到網頁內容後從新發布一下而已。數據庫

什麼是數據採集？

　　數據採集（也稱爲網絡數據提取或網頁爬取）是指從網上獲取數據，並將獲取到的數據轉化爲結構化的數據，最終能夠將數據存儲到本地計算機或數據庫的一種技術。json

什麼是網絡爬蟲？

　　網絡爬蟲（又稱爲網頁蜘蛛，網絡機器人，在FOAF社區中間，更常常的稱爲網頁追逐者），是一種按照必定的規則，自動地抓取萬維網信息的程序或者腳本。另一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。windows

網絡爬蟲的分類

網絡爬蟲按照系統結構和實現技術，大體能夠分爲如下幾種類型：

通用網絡爬蟲（General Purpose Web Crawler）、
聚焦網絡爬蟲（Focused Web Crawler）、
增量式網絡爬蟲（Incremental Web Crawler）、
深層網絡爬蟲（Deep Web Crawler）。

實際的網絡爬蟲系統一般是幾種爬蟲技術相結合實現的。

專業介紹：百度百科。

爬蟲步驟

指定url；
基於request模塊發起請求；
獲取響應對象返回的數據；
解析返回的數據（正則解析、Xpath解析、BeautifulSoup解析等）；
數據持久化存儲；

接下來咱們結合理論進行一下操做，以獲取博客園文章爲例，這裏使用正則解析。

實例操做（採集博客園文章：指定連接採集）

開發環境

操做系統：windows7 x64;

開發工具：Visual Studio 2017

項目名稱：ASP.NET Web 應用程序（.Net Framework）

數據庫：SqlServer2012

實例分析

一、創建一個ASP.NET Web 應用程序項目，命名爲Reptiles。

項目建立成功後，咱們先去分析一下數據結構，能夠根據request返回的請求分析，可是我這裏的目標是html頁面，因此直接F12進行分析，

咱們分析後找到文章標題，文章內容，分別以下：

經過上面的分析，就能夠先寫出正則表達式：

//文章標題

Regex regTitle = new Regex(@"<a\sid=""cb_post_title_url""[^>]*?>(.*?)</a>", RegexOptions.IgnoreCase | RegexOptions.Singleline | RegexOptions.IgnorePatternWhitespace);

//文章內容

Regex regContent = new Regex(@"<div\sid=""cnblogs_post_body""[^>]*?>(.*?)</div>", RegexOptions.IgnoreCase | RegexOptions.Singleline | RegexOptions.IgnorePatternWhitespace);

完整代碼放在最後面，直接拷貝就可使用；

查看一下運行結果：

注意，這裏沒有持久化入庫，有須要的同窗根據本身的須要自行入庫便可。

實例操做（採集博客園文章：批量採集）

批量採集和指定url採集差很少，批量採集須要先獲取指定頁面（這裏以博客園首頁爲例），

獲取頁面上面的url去獲取下面的內容。一樣的，咱們先分析一下頁面數據結構，以下：

經過上面的分析，就能夠先寫出正則表達式：

//標題div

Regex regBody = new Regex(@"<div\sclass=""post-item-text"">([\s\S].*?)</div>", RegexOptions.IgnoreCase | RegexOptions.Singleline | RegexOptions.IgnorePatternWhitespace);

//a標籤文章標題

Regex regTitle = new Regex("<a[^>]*?>(.*?)</a>", RegexOptions.IgnoreCase | RegexOptions.Singleline | RegexOptions.IgnorePatternWhitespace);

//文章標題URL

string regURL = @"(?is)<a[^>]*?href=(['""\s]?)(?<href>[^'""\s]*)\1[^>]*?>";

代碼放後面，咱們先看一下運行結果：

代碼展現

注：創建好相應的控制器和view視圖後，直接拷貝便可使用

批量採集視圖：About
指定連接採集視圖：Contact
控制器：HomeController

【指定連接採集】前端代碼

<!--這個jQuery能夠引用一個在線的使用，我這裏是本地的-->
<script src="~/Scripts/jquery-3.3.1.min.js"></script>
<div style="margin-top:40px;font-family:'Microsoft YaHei';font-size:18px; ">
    <h1>指定連接採集</h1>
    <hr />
    <div style="height:60px;width:100%;border:1px solid gray;padding:10px">
        <input style="width:900px;height:100%;max-width:900px;" id="Url" placeholder="這裏是文章URL連接" />
        <a href="javascript:void(0)" onclick="GetHtml()">採集數據</a>
    </div>
    <div id="content" style="overflow:auto;height:600px;width:100%;border:1px solid gray;">
        <!--標題-->
        <h1 class="postTitle"></h1>
        <div class="postBody"></div>
        <!--內容-->

    </div>
</div>

<script>

    function GetHtml() {
        $.ajax({
            url: "/Home/GetHtml",
            data: {
                Url: $("#Url").val()
            },
            type: "POST",
            dataType: "json",
            success: function (data) {
                var data = eval("(" + data + ")");
                if (data.length > 0) {
                    $(".postTitle").html(data[0].ArticleTitle);
                    $(".postBody").html(data[0].ArticleContent);
                }

            }
        });
    }




</script>

【批量採集】前端代碼

<!--這個jQuery能夠引用一個在線的使用，我這裏是本地的-->
<script src="~/Scripts/jquery-3.3.1.min.js"></script>
<div style="margin-top:40px;font-family:'Microsoft YaHei';font-size:18px; ">
    <h1>批量採集</h1>
    <hr />
    <div style="height:60px;width:100%;border:1px solid gray;padding:10px">
        點我進行<a href="javascript:void(0)" style="font-size:24px;" onclick="GetHtml()">【採集數據】</a>
    </div>
    <div id="content" style="overflow:auto;height:600px;width:100%;border:1px solid gray;">
        <!--標題-->
        <div id="post_list"></div>

    </div>
</div>

<script>

    function GetHtml() {
        $.ajax({
            url: "/Home/GetHtml",
            data: {
                Url: $("#Url").val()
            },
            type: "POST",
            dataType: "json",
            success: function (data) {
                var data = eval("(" + data + ")");
                if (data.length > 0) {
                    var html_text = "";
                    for (var i = 0; i < data.length; i++) {
                        html_text += '<div class="post-item-text">' + data[i].ArticleTitle2+'</div>';
                    }
                    $("#post_list").html(html_text);
                }
            }
        });
    }

</script>

控制器後端代碼：

using System;
using System.Collections.Generic;
using System.IO;
using System.Linq;
using System.Net;
using System.Text;
using System.Text.RegularExpressions;
using System.Web;
using System.Web.Mvc;

namespace Reptiles.Controllers
{
    public class HomeController : Controller
    {
        public ActionResult Index()
        {
            return View();
        }

        public ActionResult About()
        {
            ViewBag.Message = "Your application description page.";

            return View();
        }

        public ActionResult Contact()
        {
            ViewBag.Message = "Your contact page.";

            return View();
        }

        //數據採集
        public JsonResult GetHtml(string Url)
        {
            CnblogsModel result = new CnblogsModel();
            List<CnblogsModel> HttpGetHtml = new List<CnblogsModel>();
            if (string.IsNullOrEmpty(Url))
                HttpGetHtml = GetUrl();
            else
                HttpGetHtml = GetUrl(Url);

            var strList=Newtonsoft.Json.JsonConvert.SerializeObject(HttpGetHtml);
            return Json(strList, JsonRequestBehavior.AllowGet);
        }


        #region 爬蟲


        #region 批量採集
        //獲得首頁的URL
        public static List<CnblogsModel> GetUrl()
        {

            HttpWebRequest request = (HttpWebRequest)WebRequest.Create("https://www.cnblogs.com/");
            request.Method = "GET";
            request.Accept = "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8";
            request.UserAgent = "   Mozilla/5.0 (Windows NT 6.1; WOW64; rv:28.0) Gecko/20100101 Firefox/28.0";
            HttpWebResponse response = (HttpWebResponse)request.GetResponse();
            Stream stream = response.GetResponseStream();
            StreamReader sr = new StreamReader(stream);
            string articleContent = sr.ReadToEnd();

            List<CnblogsModel> list = new List<CnblogsModel>();

            #region 正則表達式
            //標題div
            Regex regBody = new Regex(@"<div\sclass=""post-item-text"">([\s\S].*?)</div>", RegexOptions.IgnoreCase | RegexOptions.Singleline | RegexOptions.IgnorePatternWhitespace);
            //a標籤 文章標題 
            Regex regTitle = new Regex("<a[^>]*?>(.*?)</a>", RegexOptions.IgnoreCase | RegexOptions.Singleline | RegexOptions.IgnorePatternWhitespace);
            //文章標題URL
            string regURL = @"(?is)<a[^>]*?href=(['""\s]?)(?<href>[^'""\s]*)\1[^>]*?>";
          
            #endregion
            MatchCollection mList = regBody.Matches(articleContent);
            CnblogsModel model = null;
            String strBody = String.Empty;
            for (int i = 0; i < mList.Count; i++)
            {
                model = new CnblogsModel();
                strBody = mList[i].Groups[1].ToString();
                MatchCollection aList = regTitle.Matches(strBody);
                int aCount = aList.Count;
                //文章標題
                model.ArticleTitle = aList[0].Groups[1].ToString();
                model.ArticleTitle2 = aList[0].Groups[0].ToString();
                //文章連接
                var item = Regex.Match(aList[0].Groups[0].ToString(), regURL, RegexOptions.IgnoreCase);
                model.ArticleUrl = item.Groups["href"].Value;
                //根據文章連接獲取文章內容
                model.ArticleContent = GetConentByUrl(model.ArticleUrl);


                list.Add(model);
            }
            return list;
        }

        //根據URL獲得文章內容
        public static string GetConentByUrl(string URL)
        {
            HttpWebRequest request = (HttpWebRequest)WebRequest.Create(URL);
            request.Method = "GET";
            request.Accept = "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8";
            request.UserAgent = "   Mozilla/5.0 (Windows NT 6.1; WOW64; rv:28.0) Gecko/20100101 Firefox/28.0";
            HttpWebResponse response = (HttpWebResponse)request.GetResponse();
            Stream stream = response.GetResponseStream();
            StreamReader sr = new StreamReader(stream);
            string articleContent = sr.ReadToEnd();

            List<CnblogsModel> list = new List<CnblogsModel>();
            #region 正則表達式
            //文章內容
            Regex regContent = new Regex(@"<div\sid=""cnblogs_post_body""[^>]*?>(.*?)</div>", RegexOptions.IgnoreCase | RegexOptions.Singleline | RegexOptions.IgnorePatternWhitespace);
            #endregion

            MatchCollection mList = regContent.Matches(articleContent);

            var returncontent = "";
            if (mList.Count > 0)
                returncontent = mList[0].Groups[0].ToString();


            return returncontent;
        }
        #endregion

        #region 指定連接採集
        //指定連接採集
        public static List<CnblogsModel> GetUrl(string URL)
        {

            HttpWebRequest request = (HttpWebRequest)WebRequest.Create(URL);
            request.Method = "GET";
            request.Accept = "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8";
            request.UserAgent = "   Mozilla/5.0 (Windows NT 6.1; WOW64; rv:28.0) Gecko/20100101 Firefox/28.0";
            HttpWebResponse response = (HttpWebResponse)request.GetResponse();
            Stream stream = response.GetResponseStream();
            StreamReader sr = new StreamReader(stream);
            string articleContent = sr.ReadToEnd();

            List<CnblogsModel> list = new List<CnblogsModel>();

            #region 正則表達式

            //文章標題 
            Regex regTitle = new Regex(@"<a\sid=""cb_post_title_url""[^>]*?>(.*?)</a>", RegexOptions.IgnoreCase | RegexOptions.Singleline | RegexOptions.IgnorePatternWhitespace);
            //文章內容
            Regex regContent = new Regex(@"<div\sid=""cnblogs_post_body""[^>]*?>(.*?)</div>", RegexOptions.IgnoreCase | RegexOptions.Singleline | RegexOptions.IgnorePatternWhitespace);
            #endregion
            MatchCollection mList = regTitle.Matches(articleContent);
            MatchCollection mList2 = regContent.Matches(articleContent);

            CnblogsModel model = new CnblogsModel();
            //文章標題
            model.ArticleTitle = mList[0].Groups[0].ToString();
            model.ArticleContent = mList2[0].Groups[0].ToString();

            list.Add(model);
            return list;
        }
        #endregion

        //實體
        public class CnblogsModel
        {
            /// <summary>
            /// 文章連接
            /// </summary>
            public String ArticleUrl { get; set; }
            /// <summary>
            /// 文章標題（帶連接）
            /// </summary>
            public String ArticleTitle { get; set; }
            /// <summary>
            /// 文章標題(不帶連接)
            /// </summary>
            public String ArticleTitle2 { get; set; }
            /// <summary>
            /// 文章內容摘要
            /// </summary>
            public String ArticleContent { get; set; }
            /// <summary>
            /// 文章做者
            /// </summary>
            public String ArticleAutor { get; set; }
            /// <summary>
            /// 文章發佈時間
            /// </summary>
            public String ArticleTime { get; set; }
            /// <summary>
            /// 文章評論量
            /// </summary>
            public Int32 ArticleComment { get; set; }
            /// <summary>
            /// 文章瀏覽量
            /// </summary>
            public Int32 ArticleView { get; set; }
        }

        #endregion


    }
}

源碼下載

連接：https://pan.baidu.com/s/10lDUZju3FAmFFTrVrWqg3Q
提取碼：xion

寫在後面

朋友們看到這裏是否是發現除了分析數據結構和寫正則表達式比較費勁，其餘的就是一些常規操做？

沒錯，只要你會分析數據結構和數據解析，那麼任何數據對你來講都是信手拈來；

參考：百度百科：https://baike.baidu.com/item/%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB/5162711?fr=aladdin。

歡迎關注訂閱個人微信公衆平臺【熊澤有話說】，更多好玩易學知識等你來取
做者：熊澤-學習中的苦與樂
公衆號：熊澤有話說
出處： https://www.cnblogs.com/xiongze520/p/14177274.html
創做不易，版權歸做者和博客園共有，轉載或者部分轉載、摘錄，請在文章明顯位置註明做者和原文連接。