awk分組求和分組統計次數

時間 2019-11-17

標籤 awk 分組求和統計次數欄目 Linux 简体版

原文原文鏈接

分組求和

1php	awk '{s[$1] += $2}END{ for(i in s){ print i, s[i] } }' file1 > file2函數

以第一列爲變量名第一列爲變量，將相同第一列的第二列數據進行累加打印出和.spa

13d	awk '{s[$1" "$2] += $3}END{ for(i in s){ print i, s[i] } }' file1 > file2blog

以第一列和第二列爲變量名，將相同第一列、第二列的第三列數據進行累加打印出和內存

1get	awk '{s[$1] += $2; a[$1] += $3 }END{ for(i in s){ print i,s[i],a[i] } }' haha.txtit

若是第一列相同，則根據第一列來分組，分別打印第二列和第三列的和io

匹配

一、匹配交集項table

1	awk 'NR==FNR{a[$1]=1}NR>FNR&&a[$1]>0{print $0}' file1（字段：QQ） file2（字段：QQ 點券值） > file3

若是file一、file2中，2個文件的第一列值相同，輸出第2個文件的全部列

注意：數據量若是達到4Gb以上或者行數達到一億級別，建議將file2進行split分割，不然就算是32G的內存的機器都會被吃掉；

1	awk 'NR==FNR{a[$1" "$2]=1}NR>FNR&&a[$1" "$2]>0{print $0}' file1 file2> file3

若是file一、file2中，2個文件的第一列第二列值相同，輸出第2個文件的全部列

二、匹配非交集項

1	awk 'NR==FNR{a[$1]=1}NR>FNR&&a[$1]<1 {print $0}' file1 file2 > file3

針對2個文件的第一列作比較，輸出：在file2中去除file1中第一列出現過的行

第二種方法：

1 2	cat file1 file2\|sort \|uniq -d > jiaoji.txt cat file2 jiaoji.txt \|sort \|uniq -u > file3

取最大值、最小值

一、針對(2列的文件)

1	awk '{max[$1]=max[$1]>$2?max[$1]:$2}END{for(i in max)print i,max[i]}' file

第一列不變，取第二列分組最大值

1	awk '{if(!min[$1])min[$1]=20121231235959;min[$1]=min[$1]<$2?min[$1]:$2}END{for(i in min)print i,min[i]}' file

第一列不變，取第二列分組最小值

二、針對單列的文件

1 2	awk 'BEGIN {max = 0} {if ($1>max) max=$1 fi} END {print "Max=", max}' file2 awk 'BEGIN {min = 1999999} {if ($1<min) min=$1 fi} END {print "Min=", min}' file2

求和、求平均值、求標準誤差

求和

1	cat data\|awk '{sum+=$1} END {print "Sum = ", sum}'

求平均

1	cat data\|awk '{sum+=$1} END {print "Average = ", sum/NR}'

求標準誤差

1	cat $FILE \| awk -v ave=$ave '{sum+=($1-ave)^2}END{print sqrt(sum/(NR-1))}'

整合行和列

一、列換成行

若是第一列相同，將全部的第二列第三列都放到一行裏面

1	awk '{qq[$1]=qq[$1](" "$2" "$3)}END{for(i in qq)print i,qq[i]}'

二、合併文件

2個文件，每一個2列，將他們按照第一列相同的數，來合併成一個三列的文件,同時，將每一個文件中針對第一列對應第二列中沒有的數補0

1	awk 'FNR==NR{a[$1]=$2}FNR<NR{a[$1]?a[$1]=a[$1]" "$2:a[$1]=a[$1]" 0 "$2}END{for(i in a)print i,a[i]}' file1 file2 > file3

注意點：文件2 必定要比文件1 的行數小

三、2個文件，每一個3列，將他們按照第一列、第二列相同的數，來合併成一個4列的文件,同時，將每一個文件中針對第一列、第二列對應第3列中沒有的數補0

1	awk 'FNR==NR{a[$1" "$2]=$3}FNR<NR{a[$1" "$2]?a[$1" "$2]=a[$1" "$2]" "$3:a[$1" "$2]=a[$1" "$2]" 0 "$3}END{for(i in a)print i,a[i]}' file

四、將列換成行，遇到空行，另起下一行

1	awk 'begin {RS=""} {print $1,$2,$3} file1

五、某列數字範圍篩選

cat canshu |while read a b

awk '{ if ($2>'"$a"' && $2<='"$b"' ) print $1}' result.txt > "$a"_"$b"_result.log

done

注意點：awk使用函數時，使用'"$a"'(先單引號，後雙引號)

集合類

一、集合交

1	cat fileA fileB \|sort \|uniq –d > result.log

二、集合差

1 2	cat fileA fileB \|sort \|uniq -d > jiaoji.txt cat fileA jiaoji.txt \|sort \|uniq -u > result.log

三、集合全集去重

1	cat fileA fileB \|sort -u > result.log

四、集合全集不去重

1	cat fileA fileB \|sort > result.log

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。