日誌信息:bash
源數據:1.1.1.1 - - [08/Aug/2018:00:00:14 +0800] "GET http://www.test.test/test1/test2/tes3 HTTP/1.1" 200 1306 "http://a.b.cn/test/test?form" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36 Edge/17.17134"
訪問一級目錄: http://www.test.test/test1 訪問來源: http://a.b.cnide
開始處理:
1.先使用awk 提取須要的信息,因爲目標站點的域名是固定的 www.test.test 因此這個不作判斷,只判斷訪問來源和訪問狀態
#取第7 9 11列 狀態200 源是b.cnawk '$9 =="200" && $11 ~/^"http:\/\/[a-zA-Z0-9]*\.b\.cn/ {print $7,"\t",$9,"\t",$11}'
日誌
獲得以下數據code
http://www.test.test/test1/test2/tes3 200 http://a.b.cn/test/test?formorm
2.再使用sed 對剩下的數據進行處理,只須要源的域名,以及訪問目標的一級域名排序
sed 's/"//g' | sed 's/\(http:\/\/[a-zA-Z0-9]*\.b\.cn\)\/.*/\1/g' #截取b.cn域名信息 sed 's/\(http:\/\/www\.test\.test\/[0-9a-zA-Z_]*\/\).*200/\1/g' #取www.test.test的第一級目錄
3.經過awk 和 sed 以後,再去重 。去重須要先排序 再使用 uniq去重get
sort -k2n | uniq
4.完整腳本域名
#!/bin/bash cd /home/log log=`ls *.log` for i in $log do cat $i | awk '$9 =="200" && $11 ~/^"http:\/\/[a-zA-Z0-9]*\.b\.cn/ {print $7,"\t",$9,"\t",$11}' | sed 's/"//g' | sed 's/\(http:\/\/[a-zA-Z0-9]*\.test\.test\)\/.*/\1/g'| sed 's/\(http: \/\/www\.test\.test\/[0-9a-zA-Z_]*\/\).*200/\1/g' >>test.log done sleep 3 cat test.log | sort -k2n | uniq >test1.log