「好文章」連接-爬蟲腳本

時間 2020-06-17

原文原文鏈接

爬蟲腳本html

環境：在linux系統中運行此腳本（根據不一樣博客源碼進行調整）linux

#!/bin/bash
www_link=http://blog.oldboyedu.com/page/
for i in  {1..4}   #按博客頁碼爬蟲
do
curl ${www_link}${i}/ 2>/dev/null|grep tooltip | awk -F "[><\" ]+" '{print $5"@"$7}'>>a1.txt
done
awk  -F @  '{print "<a href="$1">"$2"</a>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;"}' a1.txt > curl.txt

#!/bin/bash
www_link=http://www.cnblogs.com/clsn/default.html?page=
for i in  {1..8}   #按博客頁碼爬蟲
do
a=`curl ${www_link}${i} 2>/dev/null|grep homepage|grep -v "ImageLink"|awk -F "[><\"]" '{print $7"@"$9}' >>a1.txt`
done

egrep -v "pager" a1.txt >a2.txt 
#排除含有「pager」的行，處理後放到
b=`sed  "s# ##g" a2.txt` 
#將文件裏的空格去掉，由於for循環會將每行的空格先後做爲兩個變量，而不是一行爲一個變量

for i in $b
do
  c=`echo $i|awk -F @ '{print $1}'` #c=內容網址
  d=`echo $i|awk -F @ '{print $2}'` #d=內容
  echo "<a href="${c}">${d}</a>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;" >>curl.txt   #curl.txt爲生成a標籤的文本
done

結果展現：bash

# tail curl.txt
<a href=http://www.cnblogs.com/clsn/p/8093301.html>JIRA敏捷開發平臺部署記錄</a>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<a href=http://www.cnblogs.com/clsn/p/8087501.html>MySQL索引管理與執行計劃</a>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<a href=http://www.cnblogs.com/clsn/p/8087417.html>MySQL-Select語句高級應用</a>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<a href=http://www.cnblogs.com/clsn/p/8052649.html>keepalived實現服務高可用</a>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。