基於PHP/CURL/codeIgniter的Spider Webbot爬蟲[0]-使用原生PHP的fopen去抓取整個網頁

學了7天的PHP/CURL,寫了一個爬蟲開源項目。html

如今把全部的筆記放到Segmentfault記錄下來,算是一個記念。git

https://github.com/hosinoruri/Omoikane

$target="http://www.WebbotsSpidersScreenScrapers.com/hello_world.html";//定義抓取下載的檔案
//$file_handle=fopen($target, "r");//對目標檔案創建一個網絡鏈接。$file_handle只是一個文件名
$downloaded_page_array=file($target);// this is a arraygithub

//顯示檔案的內容
for ($xx=0; $xx < count($downloaded_page_array); $xx++)
echo $downloaded_page_array[$xx];//抓取csv和excel文檔特別有效,HTML效果不大
//使用file()把從目標網站抓取下來的文件保存成數組,經過for輸出,以$xx做爲一個始終少於抓取下來的數組
//下標來限制輸出數目,經過循環裏面打印數組輸出完整的網頁數組

/*
//取得檔案
while (!feof($file_handle)) {
echo fgets($file_handle,4096);//程序使用fget(),以4096位一塊的方式取得並顯示這個檔案,直到下載完畢
}
fclose($file_handle);//關閉這個鏈接
//使用能夠連html標記也打印出來
*/網絡

相關文章
相關標籤/搜索