爬蟲腳本html
環境:在linux系統中運行此腳本(根據不一樣博客源碼進行調整)linux
#!/bin/bash www_link=http://blog.oldboyedu.com/page/ for i in {1..4} #按博客頁碼爬蟲 do curl ${www_link}${i}/ 2>/dev/null|grep tooltip | awk -F "[><\" ]+" '{print $5"@"$7}'>>a1.txt done awk -F @ '{print "<a href="$1">"$2"</a> "}' a1.txt > curl.txt
#!/bin/bash www_link=http://www.cnblogs.com/clsn/default.html?page= for i in {1..8} #按博客頁碼爬蟲 do a=`curl ${www_link}${i} 2>/dev/null|grep homepage|grep -v "ImageLink"|awk -F "[><\"]" '{print $7"@"$9}' >>a1.txt` done
egrep -v "pager" a1.txt >a2.txt #排除含有「pager」的行,處理後放到 b=`sed "s# ##g" a2.txt` #將文件裏的空格去掉,由於for循環會將每行的空格先後做爲兩個變量,而不是一行爲一個變量
for i in $b do c=`echo $i|awk -F @ '{print $1}'` #c=內容網址 d=`echo $i|awk -F @ '{print $2}'` #d=內容 echo "<a href="${c}">${d}</a> " >>curl.txt #curl.txt爲生成a標籤的文本 done
結果展現:bash
# tail curl.txt
<a href=http://www.cnblogs.com/clsn/p/8093301.html>JIRA敏捷開發平臺部署記錄</a> <a href=http://www.cnblogs.com/clsn/p/8087501.html>MySQL索引管理與執行計劃</a> <a href=http://www.cnblogs.com/clsn/p/8087417.html>MySQL-Select語句高級應用</a> <a href=http://www.cnblogs.com/clsn/p/8052649.html>keepalived實現服務高可用</a>