/* 利用wget 指令和隊列 模擬實現網絡爬蟲 利用本身的站點wzsts.host3v.com測試了一下 有一點錯誤 文件運行後拿到index.html 對於鏈接僅僅能夠拿到 html 和htm 結尾的 而.com的沒有考慮(設計文件可能多) 一次測試後瞭解到以下問題: 1.文件應該有樹形話還原網站目錄 2.文本記錄的鏈接應該分類化 項目運行須要 su 根權限進行 由於mv命令 本項目僅僅適合在linux下運行 本項目給真真的linux 爬蟲作鋪墊 */ #include<bits/stdc++.h> using namespace std; #include <stdlib.h> #include <iostream> #include <fstream> string s("index.html"); queue<string>q; //略去一段 int main() { //index.html system("wget wzsts.host3v.com"); ofstream out("out.txt"); string mv("mv "); string html(" html"); q.push(s); while(!q.empty()) { out<<q.front().c_str(); out<<"\n"; if(strstr(q.front().c_str(),".html")||strstr(q.front().c_str(),".htm")) { fun(q.front().c_str()); q.pop(); string t("wget "); t=t+s; cout<<t.c_str()<<endl; system(t.c_str()); } string ss(q.front().c_str()); ss=mv+ss.c_str()+html; cout<<ss<<endl; system(ss.c_str()); } out.close(); return 0; }