Linux進程出問題了怎麼辦?資深程序員教你6招解決!

創做不易,點贊關注支持一下吧,個人更多原創技術分享,關注公衆號「後端技術學堂」第一時間看!linux

操做系統「進程」是學計算機都要接觸的基本概念,拋開那些純理論的操做系統底層實現,在Linux下作軟件開發這麼多年,每次程序運行出現問題,都要一步一步分析進程各類狀態,去排查問題出在哪裏,此次lemon帶你在Linux環境下實操,一步步探究揭開「Linux進程」的那些祕密。程序員

何爲進程

首先咱們說下「程序」的概念,程序是一些保存在磁盤上的指令的有序集合,是靜態的。進程是程序執行的過程,包括了動態建立、調度和消亡的整個過程,它是程序資源管理的最小單位。web

線程是操做操做系統可以進行運算調度的最小單位。大部分狀況下,它被包含在進程之中,是進程中的實際運做單位,一個進程內能夠包含多個線程,是資源調度的最小單位。[引用維基百科]編程

多線程程序模型
多線程程序模型

探究進程第一步,你在嗎?還好嗎?後端

ps

report a snapshot of the current processes. 列出當前系統進程的快照。網絡

找到進程PID ( Process IDentity ),pid惟一標識一個進程。用ps這個命令,這個命令你們應該都知道吧,對於小白用戶,首先他不是Photoshop。多線程

ps
ps

給你們簡單介紹一下,通常用法是ps -ef列出系統內常常信息,一般都會帶管道grep出本身感興趣的進程,像這樣ps -ef|grep intresting第一列PID表明進程號,PPID(parent process ID)表明父進程號。 ps輸出實例socket

探究進程第二步,讓我看看你都交了哪些朋友(系統調用 & 信號)編輯器

strace

trace system calls and signals 跟蹤進程內部的系統調用和信號工具

什麼是「系統調用」?系統調用(system call),指運行在「用戶態」的程序向操做系統「內核態」請求須要更高權限運行的服務,系統調用提供用戶程序與操做系統之間的接口。

strace後面跟着啓動一個進程,能夠跟蹤啓動後進程的系統調用和信號,這個命令能夠看到進程執行時候都調用了哪些系統調用,經過指定不一樣的選項能夠輸出系統調用發生的時間,精度能夠精確到微秒,甚至還能夠統計分析系統「調用的耗時」,這在排查進程假死問題的時候頗有用,能幫你發現進程卡在哪一個系統調用上。已經在運行的進程也能夠指定-p參數加pidgdb attach那樣附着上去跟蹤。 strace

strace統計
strace統計

探究進程第三步,讓我看看你帶的小弟們(線程)。

pstack

print a stack trace of a running process 打印出運行中程序的堆棧信息。

執行命令pstack pid 你能看到當前線程運行中的堆棧信息,其中的pid可用以前的ps命令得到,pstack能夠看到進程內啓動的線程號,每一個進程內線程的「堆棧」內容也能看到。 pstack

看到上面打印出的LWP了嗎,這裏是個知識點, LPW是指Light-weight process 輕量級線程。引伸知識:

  1. Linux中沒有真正的線程
  2. Linux中沒有的線程 Thread是由進程來模擬實現的因此稱做:輕量級進程
  3. 進程是「資源管理」的最小單元,線程是「資源調度」的最小單元(這裏不考慮協程)

探究進程第四步,讓小弟們(線程)出來排個隊吧。

pstree

display a tree of processes pstree按樹形結構打印運行中進程結構信息

能夠直觀的查看進程和它啓動的線程的關係,並能顯示進程標識。

pstree
pstree

探究進程第五步,是死(進程崩潰)是活(進程運行中)我都要知道你的祕密(堆棧幀 & 上下文)。

gdb

gdb是GNU開發的gcc套件中Linux下程序調試工具,你能夠查看程序的堆棧、設置斷點、打印程序運行時信息,甚至還能調試多線程程序,功能十分強大。

在這裏把gdb當成一個命令來說有點大材小用,要詳細說gdb的話,徹底能夠撐起一篇文章的篇幅,這裏長話短說,有機會再開一篇文章詳細介紹下它。

使用

要用gdb調試C/C++程序首先編譯的時候要加-g選項,g++ -g test.cpp -o test這樣生成的程序就能夠用gdb來調試啦。

  1. 能夠直接用gdb啓動程序調試,命令: gdb prog
  2. 用gdb附着到一個已經啓動的進程上調試也能夠。命令: gdb prog pid
  3. 程序崩潰以後參數corefile也能夠用gdb調試,看看程序死掉以前留了什麼遺言(堆棧信息)給你。命令: gdb prog corefile,這裏有一點須要注意,有些Linux系統默認程序崩潰不生成 corefile,這時你須要 ulimit -c unlimited這樣就能生成 corefile了。 gdb調試

探究進程第六步,關於你的全部,我都想知道。

更近一步

經過/proc/pid文件瞭解進程的運行時信息和統計信息。/proc系統是一個僞文件系統,它只存在內存當中,而不佔用外存空間,以文件系統的方式爲內核與進程提供通訊的接口。進入系統/proc目錄:

proc目錄
proc目錄

/proc目錄下有不少以數字命名的目錄,每一個數字表明進程號PID它們是進程目錄。系統中當前運行的每個進程在/proc下都對應一個以進程號爲目錄名的目錄/proc/pid,它們是讀取進程信息的接口,咱們能夠進到這個文件裏面,瞭解進程的運行時信息和統計信息。

高頻使用

/proc/pid目錄下的有一些重要文件,挑幾個使用頻率高的講一講。 /proc/pid/environ 包含了進程的可用環境變量的列表 。程序出問題了若是不肯定環境變量是否設置生效,能夠cat這個文件出來查看確認一下。

/proc/pid/fd/ 這個目錄包含了進程打開的每個文件的連接。從這裏能夠查看進程打開的文件描述符信息,包括標準輸入、輸出、錯誤流,進程打開的socket鏈接文件描述符也能看到,lsof命令也有相似的做用。

/proc/pid/stat包含了進程的全部狀態信息,進程號、父進程號、 線程組號、 該任務在用戶態運行的時間 、 該任務在用內核態運行的時間、 虛擬地址空間的代碼段、 阻塞信號的位圖等等信息應有盡有。

其餘統計

/proc/pid/cmdline 包含了用於開始進程的命令
/proc/pid/cwd包含了當前進程工做目錄的一個連接
/proc/pid/exe包含了正在進程中運行的程序連接
/proc/pid/mem包含了進程在內存中的內容
/proc/pid/statm包含了進程的內存使用信息

總結一下

好了,一頓操做下來,你對進程和它背後的祕密你已經很是瞭解了,下次咱們的好朋友「進程」若是遇到了什麼問題(崩潰coredump、假死、阻塞、系統調用超時、文件描述符異常),你應該知道如何幫它處理了吧!咱們來總結一下:

  • ps查看進程id,看看進程還在不在以及進程狀態
  • 若是在的話 stracepsstack看下進程當前信息,是不卡死在哪一個位置,對比各幀最後調用信息找到異常點
  • 若是進程再也不了,若是有 corefile文件,直接上 gdb查看 corefile信息
  • 其餘疑難雜症懷疑進程狀態信息的時候,看看 /proc/pid下面的進程狀態信息,可能會給你啓發。
  • 最後,若是以上都不行,閉目祈禱吧!

寫在最後

今天的分享但願對你有幫助,祝你們寫的服務永不宕機,從不coredump,讓上面教你的操做吃灰去吧。 永不宕機

圖片來源網絡|侵刪

最後,感謝各位的閱讀。文章的目的是分享對知識的理解,技術類文章我都會反覆求證以求最大程度保證準確性,若文中出現明顯紕漏也歡迎指出,咱們一塊兒在探討中學習。

reference

https://man.linuxde.net/gdb

https://blog.csdn.net/dan15188387481/article/details/49450491

https://blog.csdn.net/m0_37925202/article/details/78759408

https://blog.csdn.net/enweitech/article/details/53391567

創做不易,點贊關注支持一下吧

我會持續分享軟件編程和程序員那些事,歡迎關注。若你對編程感興趣,我整理了這些年學習編程大約3G的資源彙總,關注公衆號「後端技術學堂」後發送「資料」免費獲取。

相關文章
相關標籤/搜索