編程小技巧之 Linux 文本處理命令(二)

合格的程序員都善於使用工具,正所謂君子性非異也,善假於物也。合理的利用 Linux 的命令行工具,能夠提升咱們的工做效率。html

本篇文章是《Linux 文本處理命令》 續篇,在前文的基礎上再介紹幾款有用的 Linux 命令行工具和使用場景。程序員

再囉嗦幾句,工具能提供效率,可是有必定的學習曲線和學習成本。不少同窗臨時想用時,可能會陷入了不會用的尷尬境地,再去網上搜索學習,最終要花費更長時間,還不如使用笨方法處理,這是不少同窗不使用這些工具的緣由之一。正則表達式

並且更難的是,思惟上改變原有的作事習慣,一個文件中有20多行數據要生成 SQL,好像用手工處理也就是1,2分鐘;快捷鍵記不住,我鼠標移動一下點點也挺快。可是當行數量變大或者複雜性提升時,這些手段的弊端就會顯現,逼迫咱們去使用正確的手段。shell

因此,爲何不一開始就使用更快,並且能夠處理更加複雜場景的手段呢?數據庫

本文主要以兩個場景爲引子,介紹 join、sort、uniq 命令和 sed 編輯器。bash

合併兩個文件中的關聯行

簡單說一下場景,有兩個文件,裏邊都是固定格式的行,表明着數據庫的一行數據,一個文件是用戶相關的數據,有 user_id、username 和 gender 三列,另一個文件是訂單相關的數據,有order_id、price、user_id,time四行,如今要按照 user_id 將兩個文件按行合併,也就是user_id相同的行組合成一個新行,以下圖所示。markdown

上述兩個文件的內容以下所示:編輯器

// order.txt user_id是第三列
o1 1 u1 2011-9
o2 2 u2 2011-10
o3 3 u3 2011-10
o4 4 u1 2011-12
// user.txt user_id是第一列
u1 tom 男
u2 jack 男
u3 nacy 女

咱們準備使用 join,發現具體命令格式已經忘記了。這時,既能夠去網上搜尋,也能夠去詢問 man工具

經過 man 你能夠了解到 join 的功能描述和參數介紹,通常來講看 DESCRIPTION 一欄下的便可。學習

從上邊的 man 文檔能夠很清楚的瞭解到 join 命令使用 equality join 操做對特定的文件進行合併,並輸出到標準輸出流上。join filed 就是用於合併文件時進行比較的列,默認是兩個文件的第一列。可使用 -1 和 -2 分別制定第一個文件和第二個文件要對比的列。

$ join -1 3 -2 1  order.txt user.txt # 指定以order.txt的第三列和user.txt的第一列來進行對比join 
u1 o1 1 2011-9 tom 男
u2 o2 2 2011-10 jack 男
u3 o3 3 2011-10 nacy 女

會發現,輸出中少了一行,order.txt 明明是四行,這是爲何呢?咱們再來細看 man 文檔,發現了端倪。

兩個合併文件的行必須先按照對比列進行排序,不然可能會致使缺失部分行。user.txt 已經按照其第一列排序了,因此,咱們只須要使用 sort 命令對 order.txt 按照其第三列進行排序。

sort 命令將以默認的方式將文本文件的第一列以ASCII 碼的次序排序,並將結果輸出到標準輸出。-k 參數能夠指定其根據第幾列進行排序。

$ sort -k 3 order.txt # 按照數字排序則使用 -n 若是反序則用 -r
o4 4 u1 2011-12
o1 1 u1 2011-9
o2 2 u2 2011-10
o3 3 u3 2011-10

咱們將上述兩個命令結合起來使用,現將 sort 的結果存入 sorted_order.txt,而後再進行 join,就能獲得最終的結果。

$ sort -k 3 order.txt > sorted_order.txt
$ join -1 3 -2 1 sorted_order.txt user.txt
u1 o4 4 2011-12 tom 男
u1 o1 1 2011-9 tom 男
u2 o2 2 2011-10 jack 男
u3 o3 3 2011-10 nacy

另外,上述命令默認的列分隔符都是\t和空格,可使用 -t 參數來制定字符做爲分隔符。

經過上述命令的組合,咱們就完成了按照相同列合併兩個文件的操做,這也體現了 Linux 的 KISS 思想,每一個工具只作一小件事情。

仍是基於上述的場景,忽然須要統計一下 order.txt 中每一個用戶購買的訂單數量,而後按照訂單數進行從大到小排序,這又該如何處理呢?

咱們能夠將 sort 和 uniq 兩個工具結合起來。uniq 命令通常用於檢查和刪除文件中重複出現的行,咱們可使用它來計算 order.txt 中用戶出現的次數。

$ sort -k 3 order.txt | uniq -f 3 -c # -f 表示按照第三列進行統計
   1 o4 4 u1 2011-12
   1 o1 1 u1 2011-9
   2 o2 2 u2 2011-10

刪除 Markdown 文件中的超連接

另一個場景是我編輯文章時遇到的,當時 markdown 格式的文檔中有不少超連接,也就是[描述](連接)格式,但願所有把超連接去掉,也就是去掉方括號、圓括號和圓括號中的內容。由於文檔中還有不少代碼,包含不少圓括號語句,因此必須先準確超連接格式,而後再進行替換。

這裏,咱們可使用 sed 命令。sed 的全名叫 stream editor 流編輯器,可使用程序的方式來編輯文本。想要全面學習它的小夥伴能夠閱讀 《SED 簡明教程》《sed 手冊》,咱們這裏只介紹一下最基礎的功能,向你們展現使用它的可能性。使用 sed 通常要了解正則表達式,推薦《正則表達式30分鐘入門教程》

sed 最簡單的使用方法就是替換文本。好比,咱們要將上述的 order.txt 中的 u所有替換爲user,則可使用以下命令。

$ sed 's/u/user/g' order.txt # u是被替換的詞 user是替換詞
o1 1 user1 2011-9
o2 2 user2 2011-10
o3 3 user3 2011-10
o4 4 user1 2011-12

sed 還能輕易實現 sublime 或者 vscode 常用的多行光標編輯的功能。好比在 order.txt 的每行前頭前添加文字。

$ sed 's/^/#/g' order.txt  # ^在正則表達式中表示一行開頭,因此表示是在行開頭上加上#字符
#o1 1 u1 2011-9
#o2 2 u2 2011-10
#o3 3 u3 2011-10
#o4 4 u1 2011-12

下面,咱們直接來看如何將超連接格式轉換爲純文本。

$ echo "[連接](http://http://remcarpediem.net/)" | sed -E "s/\[(.*)]\(.*\)/\1/g"
連接

首先,識別[描述](連接) 格式的正則表達式是\[.*\]\(.*\),其中 \[\( 分別表示匹配文本的[( 符號。. 表示任何單個字符,*表示某個字符出現了0次或屢次, 兩者組合 .* 則表示出現0次或者屢次任何字符。綜上,上述正則表達的含義就是先出現一個[,再出現0次或者屢次任意字符,在出現一個],在出現一個(,在出現0次或者屢次任意字符,最後出現一個)

其次,咱們但願用[描述]中的描述文原本替換整個超連接文本,因此須要先識別出方括號中的內容,則須要將其用()單獨括起來,表示一個子表達式,也就是\[(.*)\]\(.*\)

最後,sed 的 s///g 模式下,s 表示替換模式,g 表示匹配每一行有行首到行尾的全部字符,加 g 則一行有多個連接能夠匹配處理,不加只能匹配第一個。\1表明第一個子表達式,也就是方括號中的描述內容。

相關文章
相關標籤/搜索