採集天貓新百倫旗艦店商品數據

1. 下載火蜘蛛採集器php

 

 

火蜘蛛採集器下載地址:html

http://firespider.duapp.com/FireSpiderWeb/index.htmlapache

 

 

 

2.安裝json

 

火蜘蛛採集器包含了一個客戶端和一個服務端安裝包。安裝很是方便,一路下一步就能夠安裝完成。具體安裝步驟能夠參考它提供的安裝手冊。瀏覽器

 

3.啓動tomcat

 

啓動服務端:在桌面有個快捷方式「Fire Spider Server Startup」,右鍵-》以管理員身份運行。app

啓動客戶端:雙擊桌面快捷方式「FireSpider」ide

 

4.試用oop

安裝以後默認已經包含了幾個採集任務了。打開客戶端,以下圖所示,選中一個任務後點擊「執行採集」。post

 

 

能夠看到採集開始執行了。

 

若是須要中止採集,選中採集任務,點擊「執行採集」按鈕旁邊的「退出」。

 

 

5.創建新百倫任務

安裝以後默認已經包含了一個採集駱駝天貓店的任務——「駱駝-列表頁」。咱們只要參考這個,建一個本身的任務就能夠了。好比我要採集 「新百倫旗艦店」,在天貓搜索「新百倫」進入新百倫天貓店,找到新百倫的列表頁,連接是這樣的:

 

http://newbalance.tmall.com/search.htm?spm=a220m.1000858.1000725.4.vvTbdj&rn=bda5ce8edbc3307bf802e68880861de3&user_number_id=520557274

 

接下來建一個採集新百倫的任務

 

在瀏覽器輸出 http://localhost:8090/FireSpider/html/index.html 打開管理中心

 

 

新建一個任務,除了「任務名稱」,「連接」,「數據上傳連接」,其實都跟「駱駝-列表頁」同樣就好了。連接填寫剛纔的新百倫列表頁的連接。

注意「數據上傳連接」 字段:這個是採集器在採集到數據的時候,會把數據往這個連接以POST方式推送。由於採集器並不知道咱們拿採集到的數據有什麼用,只好把數據交給咱們本身處理。咱們能夠在本地開一個REST服務,apache, tomcat, iis什麼的均可以。

這裏「數據上傳連接」 咱們填寫 「http://localhost/myphp/index.php」,這裏咱們用的是PHP。待會會講一個這個PHP腳本。

若是隻是體驗一下采集,「數據上傳連接」也能夠留空。

 

點擊保存

 

6. 搭建WAMP

 

若是你不須要本身處理採集到的數據,這一步並非必須的。這裏講的是PHP自定義採集數據處理,其它語言也能夠略過。

6.1 安裝wamp 

這個無需多言,也是一直下一步就能夠了。

6.2 創建Alias 

 

輸入alias名稱

輸入alias對應的目錄

6.3 index.php腳本

 

 

[php]  view plain copy
  1. <?php  
  2.   
  3.   
  4. // 注意PHP文件要保存爲UTF-8無BOM格式  
  5.   
  6.   
  7. // 取得POST過來的數據  
  8. // 由於firespider post時沒有設置content type,因此要用這種方式取post數據,不能用$_POST  
  9. $content = file_get_contents("php://input");  
  10.   
  11.   
  12. // JSON解碼  
  13. $p = json_decode($content);  
  14.   
  15.   
  16. // 後面能夠寫你本身的邏輯。這裏只是保存到一個文件中  
  17. $james=fopen("e:/test/json-".$p->urlId.".txt", "w");  
  18.   
  19.   
  20. if(!$james) {  
  21.     echo'file not exist';  
  22.     exit;  
  23. }  
  24.   
  25.   
  26. fwrite($james, $content);  
  27. fclose($james);  



 

 

7. 採集新百倫

任務創建後就能夠開始採集了。打開採集器客戶端,在任務標籤頁,選中咱們剛纔新建的「新百倫」,點擊「執行採集」

 

 

採集開始後,咱們就能夠在e:/test/ 下的josn-xxx.txt看到採集到的數據啦。

相關文章
相關標籤/搜索