使用 shell 命令統計日誌

時間 2019-11-07

標籤使用 shell 命令統計日誌欄目 Unix 简体版

原文原文鏈接

經過使用 shell 命令能夠很方便地對日誌進行統計和分析，當服務有異常的時候，須要去排查日誌，那麼掌握一種統計日誌的技巧就是必不可少的了。javascript

假設有一個包含下面內容的日誌文件 access.log。咱們以統計這個文件的日誌爲例。html

date=2017-09-23 13:32:50 | ip=40.80.31.153 | method=GET | url=/api/foo/bar?params=something | status=200 | time=9.703 | bytes=129 | referrer="-" | user-agent="Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.7 (KHTML, like Gecko) Chrome/16.0.912.63 Safari/535.7" | cookie="-"
date=2017-09-23 00:00:00 | ip=100.109.222.3 | method=HEAD | url=/api/foo/healthcheck | status=200 | time=0.337 | bytes=10 | referrer="-" | user-agent="-" | cookie="-"
date=2017-09-23 13:32:50 | ip=40.80.31.153 | method=GET | url=/api/foo/bar?params=anything | status=200 | time=8.829 | bytes=466 | referrer="-" | user-agent="GuzzleHttp/6.2.0 curl/7.19.7 PHP/7.0.15" | cookie="-"
date=2017-09-23 13:32:50 | ip=40.80.31.153 | method=GET | url=/api/foo/bar?params=everything | status=200 | time=9.962 | bytes=129 | referrer="-" | user-agent="Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.7 (KHTML, like Gecko) Chrome/16.0.912.63 Safari/535.7" | cookie="-"
date=2017-09-23 13:32:50 | ip=40.80.31.153 | method=GET | url=/api/foo/bar?params=nothing | status=200 | time=11.822 | bytes=121 | referrer="-" | user-agent="Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.7 (KHTML, like Gecko) Chrome/16.0.912.63 Safari/535.7" | cookie="-"

不一樣的服務對應的日誌可能不同，本文使用示例日誌的格式是：java

date | ip | method | url | status | time | bytes | referrer | user-agent | cookie

注意 mac 系統和 linux 系統中的命令行爲可能不一樣，如下命令請在 linux 系統中使用linux

排除特殊日誌

統計日誌時，咱們可能不關心 HEAD 請求，或者只關心 GET 請求，這裏首先須要篩選日誌，可使用 grep 命令。-v 的含義是排除匹配的文本行。正則表達式

grep GET access.log # 只統計 GET 請求
grep -v HEAD access.log # 不統計 HEAD 請求
grep -v 'HEAD\|POST' access.log # 不統計 HEAD 和 POST 請求

查看接口耗時狀況

咱們能夠將每行的 time 匹配出來，而後作一個排序。使用 awk 的 match 方法能夠匹配正則：shell

awk '{ match($0, /time=([0-9]+\.[0-9]+)/, result); print result[1]}' access.log

awk 命令使用方法以下：api

awk '{pattern + action}' {filenames}

咱們實際上只用到了 action：match($0, /time=([0-9]+\.[0-9]+)/, result); print result[1] 這一段。數組

match 方法接收三個參數：須要匹配的文本、正則表達式、結果數組。$0 表明 awk 命令處理的每一行，結果數組是可選的，由於咱們要拿到匹配結果因此這裏傳入了一個 result 數組，用來存儲匹配後的結果。cookie

注意這裏的正則我沒有使用 \d 來表示數字，由於 awk 指令默認使用「EREs"，不支持 \d 的表示，具體請看 linux shell 正則表達式(BREs,EREs,PREs)差別比較。curl

result 數組實際上和 javascript 裏的結果數組很像了，因此咱們打印出第二個元素，即匹配到的內容。執行完這行命令後結果以下：

固然實際上一天的日誌多是成千上萬條，咱們須要對日誌進行排序，且只展現前 3 條。這裏使用到 sort 命令。

sort 命令默認從小到大排序，且看成字符串排序。因此默認狀況下使用 sort 命令以後 "11" 會排在 "8" 前面。那麼須要使用 -n 指定按數字排序，-r 來按從大到小排序，而後咱們查看前 3 條：

awk '{ match($0, /time=([0-9]+\.[0-9]+)/, result); print result[1]}' access.log | sort -rn | head -3

結果：

11.822
9.962
9.703

查看耗時最高的接口

固然咱們通常不會只查看接口耗時狀況，還須要把具體日誌也打印出來，上面的命令就不能知足要求了。

awk 的打印默認是按空格分隔的，意思是 2017-09-23 GET 這一行若是使用 awk '{print $1}' 會打印出 "2017-09-23"，相似地，$2 會打印出 GET。

根據日誌特徵，咱們可使用 | 來做爲分隔符，這樣就能打印出各個咱們感興趣的值了。由於咱們想找出耗時最高的接口，那麼咱們把 time、date 和 url 單獨找出來。

awk 的 -F 參數用來自定義分隔符。而後咱們能夠數一下三個部分按 | 分隔後分別是第幾個：time 是第 6 個、date 是第 1 個、url 是第 4 個。

awk -F '|' '{print $6 $1 $4}' access.log

這樣打出來結果爲：

time=9.703 date=2017-09-23 13:32:50  url=/api/foo/bar?params=something
 time=0.337 date=2017-09-23 00:00:00  url=/api/foo/healthcheck
 time=8.829 date=2017-09-23 13:32:50  url=/api/foo/bar?params=anything
 time=9.962 date=2017-09-23 13:32:50  url=/api/foo/bar?params=everything
 time=11.822 date=2017-09-23 13:32:50  url=/api/foo/bar?params=nothing

由於咱們想按 time 來排序，而 sort 能夠按列來排序，而列是按空格分隔的，咱們目前第一列是 time=xxx，是不能排序的，因此這裏要想辦法把 time= 給去掉，由於咱們很雞賊地把耗時放在了第一列，那麼其實再經過 time= 進行分隔一下就好了。

awk -F '|' '{print $6 $1 $4}' access.log | awk -F 'time=' '{print $2}'

結果：

9.703 date=2017-09-23 13:32:50  url=/api/foo/bar?params=something
0.337 date=2017-09-23 00:00:00  url=/api/foo/healthcheck
8.829 date=2017-09-23 13:32:50  url=/api/foo/bar?params=anything
9.962 date=2017-09-23 13:32:50  url=/api/foo/bar?params=everything
11.822 date=2017-09-23 13:32:50  url=/api/foo/bar?params=nothing

使用 sort 的 -k 參數能夠指定要排序的列，這裏是第 1 列；再結合上面的排序，就能把耗時最高的日誌打印出來了：

awk -F '|' '{print $6 $1 $4}' access.log | awk -F 'time=' '{print $2}' | sort -k1nr | head -3

結果：

11.822 date=2017-09-23 13:32:50  url=/api/foo/bar?params=nothing
9.962 date=2017-09-23 13:32:50  url=/api/foo/bar?params=everything
9.703 date=2017-09-23 13:32:50  url=/api/foo/bar?params=something

統計請求次數最多的接口

若是須要統計哪些接口天天請求量是最多的，只須要新引入 uniq 命令。

咱們已經能夠經過 grep -v HEAD access.log | awk -F '|' '{print $4}' 來篩選出全部的 url，uniq 命令能夠刪除相鄰的相同的行，而 -c 能夠輸出每行出現的次數。

因此咱們先把 url 排序以讓相同的 url 放在一塊兒，而後使用 uniq -c 來統計出現的次數：

grep -v HEAD access.log | awk -F '|' '{print $4}' | sort  | uniq -c

由於示例日誌數量太少，咱們假設日誌裏有多條，那麼結果應該相似下面：

1  url=/api/foo/bar?params=anything
19  url=/api/foo/bar?params=everything
4  url=/api/foo/bar?params=nothing
5  url=/api/foo/bar?params=something

接下來再 sort 便可：

grep -v HEAD access.log | awk -F '|' '{print $4}' | sort  | uniq -c | sort -k1nr | head -10

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。