C#爬蟲例子

公司須要抓取新聞,每次手動複製粘貼新聞,太麻煩了,業務人員就提出了要求,須要程序實現自動抓取新聞,所以就寫了這個簡單的爬蟲程序。spa

 Html Agility Pack庫

這是一個.NET下的HTML解析類庫,它能夠讀/寫DOM並支持普通的XPATH或XSLT。code

 AngleSharp庫

AngleSharp是一個.NET庫,能夠操做基於<角括號>的超文本,如HTML,SVG,MathML,XML,CSS等。AngleSharp根據官方HTML5規範構建DOM。這也意味着最終的模型是徹底交互式的,能夠用於簡單的操做。blog

··· 用AngleSharp作的簡單爬蟲
//1.設置配置
var config = Configuration.Default.WithDefaultLoader();
var context = BrowsingContext.New(config);
//2.打開鏈接
var address = "https://www.sina.com.cn/";
var document = await context.OpenAsync(address);
//3.選擇內容範圍
var cellSelector = ".newslist li";
var cells = document.QuerySelectorAll(cellSelector);
//4.獲取內容
var titles = cells.Select(m => m.TextContent);

foreach (var title in titles) {
    Console.WriteLine(title);
}
···
相關文章
相關標籤/搜索