C#使用Selenium+PhantomJS抓取數據

手頭項目須要抓取一個用js渲染出來的網站中的數據。使用經常使用的httpclient抓回來的頁面是沒有數據。上網百度了一下,你們推薦的方案是使用PhantomJS。PhantomJS是一個沒有界面的webkit瀏覽器,可以和瀏覽器效果一致的使用js渲染頁面。Selenium是一個web測試框架。使用Selenium來操做PhantomJS絕配。可是網上的例子可能是Python的。無奈,下載了python按照教程搞了一下,卡在了Selenium的導入問題上。遂放棄,仍是用本身慣用的c#吧,就不信c#上沒有。通過半個小時的折騰,搞定(python折騰了一個小時)。記錄下這篇博文,讓我等搞c#的新手能用上PhantomJS。python

第一步:打開visual studio 2017 新建一個控制檯項目,打開nuget包管理器。web

第二部:搜索Selenium,安裝Selenium.WebDriver。注意:若是要使用代理的話最好安裝3.0.0版本。c#

第三步:寫下以下圖所示的代碼。可是執行的時候會報錯。緣由是找不到PhantomJS.exe。這時候能夠去下載一個,也能夠繼續看第四步。瀏覽器

 

using OpenQA.Selenium;
using OpenQA.Selenium.PhantomJS;
using System;

namespace ConsoleApp1
{
    class Program
    {
        static void Main(string[] args)
        {
            var url = "http://www.baidu.com";
            IWebDriver driver = new PhantomJSDriver(GetPhantomJSDriverService());
            driver.Navigate().GoToUrl(url);
            Console.WriteLine(driver.PageSource);
            Console.Read();
        }

        private static PhantomJSDriverService GetPhantomJSDriverService()
        {
            PhantomJSDriverService pds = PhantomJSDriverService.CreateDefaultService();
            //設置代理服務器地址
            //pds.Proxy = $"{ip}:{port}";  
            //設置代理服務器認證信息
            //pds.ProxyAuthentication = GetProxyAuthorization();
            return pds;
        }
    }
}

 

 

 

第四步:打開nuget安裝Selenium.PhantomJS.WebDriver包。服務器

第五步:運行。能夠看到phantomjs.exe被自動下載了。框架

好了,這樣就能夠開始你的數據抓取大業了。測試

相關文章
相關標籤/搜索