「好文章」連接-爬蟲腳本

 爬蟲腳本html

 環境:在linux系統中運行此腳本(根據不一樣博客源碼進行調整)linux

#!/bin/bash
www_link=http://blog.oldboyedu.com/page/
for i in  {1..4}   #按博客頁碼爬蟲
do
curl ${www_link}${i}/ 2>/dev/null|grep tooltip | awk -F "[><\" ]+" '{print $5"@"$7}'>>a1.txt
done
awk  -F @  '{print "<a href="$1">"$2"</a>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;"}' a1.txt > curl.txt

 

#!/bin/bash
www_link=http://www.cnblogs.com/clsn/default.html?page=
for i in  {1..8}   #按博客頁碼爬蟲
do
a=`curl ${www_link}${i} 2>/dev/null|grep homepage|grep -v "ImageLink"|awk -F "[><\"]" '{print $7"@"$9}' >>a1.txt`
done
egrep
-v "pager" a1.txt >a2.txt #排除含有「pager」的行,處理後放到 b=`sed "s# ##g" a2.txt` #將文件裏的空格去掉,由於for循環會將每行的空格先後做爲兩個變量,而不是一行爲一個變量
for i in $b do c=`echo $i|awk -F @ '{print $1}'` #c=內容網址 d=`echo $i|awk -F @ '{print $2}'` #d=內容 echo "<a href="${c}">${d}</a>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;" >>curl.txt #curl.txt爲生成a標籤的文本 done

 

結果展現bash

# tail curl.txt
<a href=http://www.cnblogs.com/clsn/p/8093301.html>JIRA敏捷開發平臺部署記錄</a>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; <a href=http://www.cnblogs.com/clsn/p/8087501.html>MySQL索引管理與執行計劃</a>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; <a href=http://www.cnblogs.com/clsn/p/8087417.html>MySQL-Select語句高級應用</a>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; <a href=http://www.cnblogs.com/clsn/p/8052649.html>keepalived實現服務高可用</a>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
相關文章
相關標籤/搜索