前段時間咱們學習了幾種爬蟲技術,咱們來回顧一下,webCollector,htmlParser,Jsoup,各有優劣,可是若是能靈活運用,其實都是很不錯的。那麼,今天呢,咱們來學習一種腳本語言,這是一種專門爲爬蟲技術設計的腳本語言,叫作CrawlScript。話很少說,咱們先來了解一下CrawlScript.javascript
在JAVA程序中調用CrawlScript:CrawlScript徹底由JAVA編寫,可在JAVA程序中被方便調用。html
爲何選擇CrawlScript:java
詳細文檔能夠參考CrawlScript的API幫助文檔,http://crawlscript.github.io/index.html。linux
首先,咱們須要先下載CrawlScript的壓縮包下來,進入CrawlScript的github主頁,右下方的Download Zip按鈕下載。git
下載完後解壓到指定文件夾,以下圖:github
咱們發現這裏面有一個Jar包,還有一個demo.js,這個js是一個能夠運行的案例,咱們先無論它。web
接下來,咱們須要運行CrawlScript Shell,CrawlScript Shell是編寫和運行CrawlScript最經常使用的方式之一。具體可參考文檔。咱們先來獲取一下百度首頁的內容:編程
接下來,咱們利用CrawlScript爬取搜狐新聞的網頁內容。windows
OK,今天的內容就到這裏了,至於CrawlScript更深刻的內容咱們就再也不贅述了,有興趣的同窗們能夠查找資料進一步的去研究。函數
若是您對本文觀點有什麼異議,歡迎您的留言,咱們一塊兒交流!