先來個文件大小web
[root@localhost dnslog]# du -sh namedgc.log.20140829 google
286M namedgc.log.20140829url
算一算行數,300多萬行;.net
[root@localhost dnslog]# wc -l namedgc.log.20140829 日誌
3052931 namedgc.log.20140829dns
請求的日誌形如:get
29-Aug-2014 18:18:18.303 client 10.28.2.254#55474: query: clients3.google.com IN A + (10.28.5.101)class
大約請求了290W個地址:awk
[root@localhost dnslog]# grep query namedgc.log.20140829 |wc -lcli
2890487
共計7W多不重複的URL.
[root@localhost dnslog]# grep query namedgc.log.20140829 |awk '{print $6}' | sort | uniq |wc -l
71384
天天的URL請求量,大概爲50W:
[root@localhost dnslog]# grep "29-Aug-2014" namedgc.log.20140829 |wc -l
525048
[root@localhost dnslog]# grep "28-Aug-2014" namedgc.log.20140829 |wc -l
553608
平均下來每臺電腦接近7千次DNS請求;假設每一個網頁有20個超連接,一臺電腦一天平均瀏覽350個網頁;
分析.com解釋的地址形如:xxx.com,獨立主站有接近1W個:
[root@localhost dnslog]# awk -F ".com" '{print $1}' /tmp/com_uniq_url.list | sed 's/\./ /g'| awk '{print $NF".com"}' > /tmp/com_main_web.com
[root@localhost dnslog]# sort /tmp/com_main_web.com | uniq |wc -l
9841
夜深了,準備洗漱,睡覺,明天,有時間的話,繼續。。