CrawlScript腳本語言實現網絡爬蟲

前段時間咱們學習了幾種爬蟲技術,咱們來回顧一下,webCollector,htmlParser,Jsoup,各有優劣,可是若是能靈活運用,其實都是很不錯的。那麼,今天呢,咱們來學習一種腳本語言,這是一種專門爲爬蟲技術設計的腳本語言,叫作CrawlScript。話很少說,咱們先來了解一下CrawlScript.javascript

  1. CrawlScript是一種具備爬蟲功能的javascriptCrawlScript是一種具備爬蟲功能的javascript,CrawlScript是在ECMA標準的基礎上設計的語言,是一種javascript,在語法上和網頁開發中使用的javascript徹底相同,可是並不支持網頁開發中所特有的函數和對象,如document、alert()在CrawlScript中會失效。CrawlScript有本身的一套特有的函數和對象。
  2. CrawlScript是跨平臺的CrawlScript在任何有JDK環境的電腦上均可以運CrawlScript是跨平臺的行,不管是windows、linux仍是unix。
  3. 在JAVA程序中調用CrawlScript:CrawlScript徹底由JAVA編寫,可在JAVA程序中被方便調用。html

  4. 爲何選擇CrawlScript:java

 

  • CrawlScript是腳本語言,大大簡化了編程,用一兩行代碼能夠實現用幾十行JAVA代碼才能實現的功能。
  • CrawlScript能夠直接單獨做爲爬蟲使用,只須要JDK的環境便可,不須要複雜的配置過程。
  • CrawlScript能夠嵌入任何其餘JAVA程序中。

 

詳細文檔能夠參考CrawlScript的API幫助文檔,http://crawlscript.github.io/index.htmllinux

首先,咱們須要先下載CrawlScript的壓縮包下來,進入CrawlScript的github主頁,右下方的Download Zip按鈕下載。git

下載完後解壓到指定文件夾,以下圖:github

咱們發現這裏面有一個Jar包,還有一個demo.js,這個js是一個能夠運行的案例,咱們先無論它。web

接下來,咱們須要運行CrawlScript Shell,CrawlScript Shell是編寫和運行CrawlScript最經常使用的方式之一。具體可參考文檔。咱們先來獲取一下百度首頁的內容:編程

接下來,咱們利用CrawlScript爬取搜狐新聞的網頁內容。windows

 

OK,今天的內容就到這裏了,至於CrawlScript更深刻的內容咱們就再也不贅述了,有興趣的同窗們能夠查找資料進一步的去研究。函數

若是您對本文觀點有什麼異議,歡迎您的留言,咱們一塊兒交流!

相關文章
相關標籤/搜索