公司須要抓取新聞,每次手動複製粘貼新聞,太麻煩了,業務人員就提出了要求,須要程序實現自動抓取新聞,所以就寫了這個簡單的爬蟲程序。spa
這是一個.NET下的HTML解析類庫,它能夠讀/寫DOM並支持普通的XPATH或XSLT。code
AngleSharp是一個.NET庫,能夠操做基於<角括號>的超文本,如HTML,SVG,MathML,XML,CSS等。AngleSharp根據官方HTML5規範構建DOM。這也意味着最終的模型是徹底交互式的,能夠用於簡單的操做。blog
··· 用AngleSharp作的簡單爬蟲 //1.設置配置 var config = Configuration.Default.WithDefaultLoader(); var context = BrowsingContext.New(config); //2.打開鏈接 var address = "https://www.sina.com.cn/"; var document = await context.OpenAsync(address); //3.選擇內容範圍 var cellSelector = ".newslist li"; var cells = document.QuerySelectorAll(cellSelector); //4.獲取內容 var titles = cells.Select(m => m.TextContent); foreach (var title in titles) { Console.WriteLine(title); } ···