摘要: 若是您的應用程序不工做,或者您但願在尋找更多信息,這 20 個命令將派上用場。html
Image by : opensource.comjava
在這個全新的工具和多樣化的開發環境井噴的大環境下,任何開發者和工程師都有必要學習一些基本的系統管理命令。特定的命令和工具包可幫助開發者組織、排查故障並優化他們的應用程序,並且當出現錯誤時,也能夠爲運維人員和系統管理員提供有價值的分類信息。python
不管你是新手開發者仍是但願管理本身的應用程序,下面 20 條基本的系統管理命令均可以幫助您更好地瞭解您的應用程序。它們還能夠幫助解決爲何應用程序可在本地正常工做但不能在遠程主機上工做這類的系統故障。這些命令適用於 Linux 開發環境、容器和虛擬機。linux
curl 用於傳輸一個 URL。可使用這條命令用於測試應用程序的端點或與上游服務端點的鏈接。curl 還可用於檢查你的應用程序是否能鏈接到其餘服務,例如數據庫,或檢查您的服務是否處於健康的狀態。git
舉個例子,假如你的應用程序拋出一個 HTTP 500 錯誤,表示沒法訪問 MongoDB 數據庫:github
$ curl -I -s myapplication:5000 HTTP/1.0 500 INTERNAL SERVER ERROR
-I 選項用於顯示頭信息,-s 選項表示使用靜默模式,不顯示錯誤和進度。檢查數據庫的端點是否正確:正則表達式
$ curl -I -s database:27017 HTTP/1.0 200 OK
那麼多是什麼問題呢? 檢查您的應用程序是否能夠訪問數據庫之外的其餘位置:mongodb
$ curl -I -s https://opensource.com HTTP/1.1 200 OK
看起來這沒問題,如今嘗試訪問數據庫。您的應用程序正在使用數據庫的主機名,所以請先嚐試:docker
$ curl database:27017 curl: (6) Couldn't resolve host 'database'
這表示您的應用程序沒法解析數據庫,由於數據庫的 URL 不可用或主機(容器或VM)沒有可用於解析主機名的域名服務器。shell
使用 curl 後,API 調用的輸出可讀性可能較差。有時候,你但願將生成的 JSON 數據格式化輸出以查找特定的條目。Python 有一個內置的庫可幫助您實現這個需求。可使用 python -m json.tool 來縮進和組織 JSON。要使用 Python 的 JSON 模塊,須要使用管道機制,將 JSON 文件的輸出做爲輸入,寫入到 python -m json.tool 命令行。
$ cat test.json {"title":"Person","type":"object","properties":{"firstName":{"type":"string"},"lastName":{"type":"string"},"age":{"description":"Age in years","type":"integer","minimum":0}},"required":["firstName","lastName"]}
要使用 Python 庫,使用 -m (module) 選項將輸出內容和 Python 庫組合成管道。
$ cat test.json | python -m json.tool { "properties": { "age": { "description": "Age in years", "minimum": 0, "type": "integer" }, "firstName": { "type": "string" }, "lastName": { "type": "string" } }, "required": [ "firstName", "lastName" ], "title": "Person", "type": "object" }
對於更高級的 JSON 解析,能夠安裝 jq。jq 提供了一些從 JSON 輸入中提取特定值的選項。要像上面的 Python 模塊同樣將 JSON 輸出格式化,只需將 jq 應用到輸出便可。
$ cat test.json | jq { "title": "Person", "type": "object", "properties": { "firstName": { "type": "string" }, "lastName": { "type": "string" }, "age": { "description": "Age in years", "type": "integer", "minimum": 0 } }, "required": [ "firstName", "lastName" ] }
ls 用於列出目錄中的文件,系統管理員和開發者會常用這個命令。在容器空間中,這條命令能夠幫助肯定容器鏡像中的目錄和文件。除了查找文件,ls 還能夠用於檢查權限。下面的示例中,因爲權限問題,你不能運行 myapp。當你使用 ls -l 檢查權限時,你會發現它的權限在 -rw-r--r-- 中沒有"x",只有讀寫的權限。
$ ./myapp bash: ./myapp: Permission denied $ ls -l myapp -rw-r--r--. 1 root root 33 Jul 21 18:36 myapp
tail 顯示文件的最後一部份內容。一般狀況下,你不須要瀏覽每行日誌以進行故障排除。而是須要檢查日誌中對應用程序的最新請求的說明。例如,當你向 Apache HTTP 服務器發起請求時,可使用 tail 來檢查日誌中發生的狀況。
使用 tail -f 來跟蹤日誌文件並在發起請求時查看它們。
-f 選項表示跟隨的意思,它可在日誌被寫入文件時輸出它們。下面的示例具備每隔幾秒訪問端點的後臺腳本,日誌會記錄請求。除了實時跟蹤日誌,還可使用 tail 帶上 -n 選項來查看文件的最後 100 行。
$ tail -n 100 /var/log/httpd/access_log
cat 主要用於查看文件內容和合並文件。你可能會使用 cat 來檢查依賴項文件的內容,或確認已在本地構建的應用程序的版本。
$ cat requirements.txt flask flask_pymongo
上面的示例檢查您的 Python Flask 應用程序是否已將 Flask 列爲依賴項。
grep 能使用特定模式匹配(包括正則表達式)搜索文本。若是你在另外一條命令的輸出中尋找特定的模式,grep 會高亮顯示相關的行。可以使用這條命令來搜索日誌文件以及特定的進程等。若是想查看 Apache Tomcat 是否啓動,你可能會命令行的數量給淹沒。但講輸出的內容和 grep 命令組合成管道,能夠將表示服務器已啓動的行獨立出來。
$ cat tomcat.log | grep org.apache.catalina.startup.Catalina.start 01-Jul-2017 18:03:47.542 INFO [main] org.apache.catalina.startup.Catalina.start Server startup in 681 ms
ps 用於查看進程的各類狀態信息。使用該命令可肯定正在運行的應用程序或確認預期的進程。例如,若是要檢查正在運行的 Tomcat Web 服務器,可以使用帶有選項的 ps 來獲取 Tomcat 的進程 ID。
$ ps -ef UID PID PPID C STIME TTY TIME CMD root 1 0 2 18:55 ? 00:00:02 /docker-java-home/jre/bi root 59 0 0 18:55 pts/0 00:00:00 /bin/sh root 75 59 0 18:57 pts/0 00:00:00 ps -ef
爲了更好的易讀性,可以使用 grep 和 ps 組合成管道。
$ ps -ef | grep tomcat root 1 0 1 18:55 ? 00:00:02 /docker-java-home/jre/bi
env 用於列出全部環境變量及爲其賦值。在故障排除期間,你可能會發現須要檢查是否有錯誤的環境變量來阻止應用程序啓動。在下面的示例中,該命令用於檢查程序主機上設置的環境變量。
$ env PYTHON_PIP_VERSION=9.0.1 HOME=/root DB_NAME=test PATH=/usr/local/bin:/usr/local/sbin LANG=C.UTF-8 PYTHON_VERSION=3.4.6 PWD=/ DB_URI=mongodb://database:27017/test
請注意,該應用程序正在使用 Python 3,並具備鏈接到 MongoDB 數據庫的環境變量。
top 用於顯示系統中各個進程的信息和資源佔用情況,相似於 Windows 的任務管理器。使用該命令可肯定哪些進程正在運行,以及它們消耗了多少的內存和 CPU。一種常見的狀況是當你運行一個應用程序時,它在一分鐘後掛掉。這時,你首先檢查應用程序的返回錯誤,發現是一個內存錯誤。
$ tail myapp.log Traceback (most recent call last): MemoryError
你的應用是否真的內存不足?要確認這個問題,可以使用 top 來查看應用程序消耗多少 CPU 和內存。當使用 top 命令後,您注意到一個 Python 應用程序使用了大部分的 CPU,其內存使用量也迅速攀升。當它運行時,若是進程是你的應用程序,則按"C"鍵來查看完整命令並進行逆向工程。發現原來是你的內存密集型應用程序(memeater.py)。當你的應用程序已經用盡內存,系統會殺掉它並返回一個內存不足(OOM)的錯誤。
應用程序的內存和 CPU 使用量增長,最終由於內存不足而被殺掉。
經過按下"C"鍵,能夠看到啓動該應用程序的完整命令
除了檢查應用程序,還可使用 top 來調試其餘使用 CPU 或內存的進程。
netstat 用於顯示網絡狀態信息。該命令可顯示正在使用的網絡端口及其傳入鏈接。可是,netstat 在 Linux 中不能開箱即用。若是須要安裝它,須要在 net-tools 包中找到它。做爲在本地進行試驗或將應用程序推送到主機的開發者,可能會收到端口已被分配或地址已被使用的錯誤。使用 netstat 獲得協議、進程和端口這些信息,下圖代表 Apache HTTP 服務器已經在下面的主機上使用了 80 端口。
使用 netstat -tulpn 代表 Apache 已經在這臺機器上使用了 80 端口。
若是 ip address 在你的主機上不能使用,必須使用 iproute2 包進行安裝。ip address 用於顯示應用程序的主機接口和 IP 地址。可以使用 ip address 來驗證你的容器或主機的 IP 地址。例如,當你的容器鏈接到兩個網絡時,ip address 可顯示哪一個接口鏈接到了哪一個網絡。對於簡單的檢查,能夠隨時使用 ip address 命令獲取主機的 IP 地址。下面的示例展現了在接口 eth0 上的 Web 層容器的 IP 地址爲 172.17.0.2
使用 ip address 顯示 eth0 接口的 IP 地址爲 172.17.0.2
lsof 用於列出當前系統打開的文件(list open files)。在某些 Linux 系統中,可能須要使用 lsof 包來安裝lsof。在 Linux 中,幾乎任何和系統的交互都被視爲一個文件。所以,若是你的應用程序寫入文件或代開網絡鏈接,lsof 將會把這個交互映射爲一個文件。與 netstat 相似,可以使用 lsof 來檢查偵聽端口。例如,若是要檢查 80 端口是否正在被使用,可以使用 lsof 來檢查哪一個進程正在使用它。下面的示例中,能夠看到 httpd (Apache) 在 80 端口上偵聽。還可使用 lsof 來檢查 httpd 的進程ID,檢查 Web 服務器的二進制文件所在位置(/usr/sbin/httpd)。
Lsof 代表了 httpd 在 80 端口上偵聽。檢查 httpd 的進程ID還能夠顯示全部須要運行的文件httpd。
打開文件列表中的打開文件的名稱有助於肯定進程的來源,特別是 Apache。
可使用 df 顯示空閒的磁盤空間(display free disk space)以排查磁盤空間問題。擋在容器管理器上運行應用程序時,可能會收到一條錯誤信息,提示容器主機上缺乏可用空間。雖然磁盤空間應該由系統管理程序來管理和優化,你仍可使用 df 找出目錄中的現有空間並確認是否沒有空間。
Df 顯示每一個文件系統的磁盤空間、絕對空間以及其可用性。
-h 選項表示以可讀性較高的方式來顯示信息,上面的例子表示這個主機具備大量的磁盤空間。
du 命令也是用於查看使用空間的,可是與 df 命令不一樣的是 du 命令是對文件和目錄磁盤使用的空間的查看,要獲取有關哪些文件在目錄中使用磁盤空間的更多詳細信息,可使用 du 命令,和 df 命令仍是有一些區別的。例如,你想了解那個日誌文件佔用 /var/log 目錄最多的空間,可使用 du 命令加上 -h 選項和用於獲取總大小的 -s 選項。
$ du -sh /var/log/* 1.8M /var/log/anaconda 384K /var/log/audit 4.0K /var/log/boot.log 0 /var/log/chrony 4.0K /var/log/cron 4.0K /var/log/maillog 64K /var/log/messages
上面的示例中顯示了 /var/log 下的的最大目錄爲 /var/log/audit。能夠將 du 和 df 搭配使用,以肯定在應用程序的主機上使用的磁盤空間。
要檢查運行應用程序的用戶,可以使用 id 命令來返回用戶身份。id 命令能夠顯示真實有效的用戶ID(UID)和組ID(GID)。下面的示例使用 Vagrant 來測試應用程序並隔離其開發環境。登陸進 Vagrant 盒子後,若是嘗試安裝 Apache HTTP Server(依賴關係),系統會提示你須要以 root 身份執行該命令。要檢查你的用戶ID和組ID,使用 id 命令,會發現你正在"vagrant"組中以"vagrant"用戶身份運行。
$ yum -y install httpd Loaded plugins: fastestmirror You need to be root to perform this command. $ id uid=1000(vagrant) gid=1000(vagrant) groups=1000(vagrant) context=unconfined_u:unconfined_r:unconfined_t:s0-s0:c0.c1023
要解決此問題,必須以超級用戶的身份運行該命令,這將提供提高的權限。
chmod 命令用來變動文件或目錄的權限。當你在主機上首次運行應用程序的二進制文件時,可能會收到錯誤提示信息「拒絕訪問」。如 ls 的示例所示,能夠用於檢查應用程序二進制文件的權限。
$ ls -l total 4 -rw-rw-r--. 1 vagrant vagrant 34 Jul 11 02:17 test.sh
這代表您沒有權限(沒有「x」)來運行二進制文件。chmod 能夠修改權限,使的用戶可以運行二進制文件。
$ chmod +x test.sh [vagrant@localhost ~]$ ls -l total 4 -rwxrwxr-x. 1 vagrant vagrant 34 Jul 11 02:17 test.sh
如例子所示,這將更新權限,使其具備可執行的權限。如今當你嘗試執行二進制文件時,應用程序不會拋出拒絕訪問的錯誤。當將二進制文件加載到容器時,Chmod 可能頗有用。它能保證容器具備合適的權限以執行二進制文件。
dig 命令是經常使用的域名查詢工具,能夠用來測試域名系統工做是否正常。域名服務器(DNS)有助於將 URL 解析爲一組應用程序服務器。然而,你會發現有些 URL 不能被解析,這會致使應用程序的鏈接問題。例如,假如你嘗試從應用程序的主機訪問你的數據庫。你收到一個"不能解析"的錯誤。要進行故障排查,你嘗試使用 dig(DNS 查詢工具)或 nslookup(查詢 Internet 域名服務器)來肯定應用程序彷佛沒法解析數據的緣由。
$ nslookup mydatabase Server: 10.0.2.3 Address: 10.0.2.3#53 ** server can't find mydatabase: NXDOMAIN
使用 nslookup 顯示沒法解析 mydatabase。嘗試使用 dig 解決,但還是相同的結果。
$ dig mydatabase ; <<>> DiG 9.9.4-RedHat-9.9.4-50.el7_3.1 <<>> mydatabase ;; global options: +cmd ;; connection timed out; no servers could be reached
這些錯誤多是由許多不一樣的問題引發的。若是沒法調試出根本緣由,與系統管理員聯繫以進行更多的調查。對於本地測試,這些問題可能表示你的主機的域名服務器未正確配置。要使用這些命令,須要安裝 BIND Utilities 包。
iptables 用於阻止或容許 Linux 主機上的流量,用於 IP 包過濾器管理,相似於網絡防火牆。此工具可阻止某些應用程序接收或發送請求。更具體地說,若是您的應用程序難以訪問另外一個端點,可能已被 iptables 拒絕流量訪問該端點。例如,假設您的應用程序的主機沒法訪問 Opensource.com,您使用 curl 來測試鏈接。
$ curl -vvv opensource.com * About to connect() to opensource.com port 80 (#0) * Trying 54.204.39.132... * Connection timed out * Failed connect to opensource.com:80; Connection timed out * Closing connection 0 curl: (7) Failed connect to opensource.com:80; Connection timed out
鏈接超時。您懷疑某些東西可能會阻塞流量,所以您使用 -S 選項顯示 iptables 規則。
$ iptables -S -P INPUT DROP -P FORWARD DROP -P OUTPUT DROP -A INPUT -p tcp -m tcp --dport 22 -j ACCEPT -A INPUT -i eth0 -p udp -m udp --sport 53 -j ACCEPT -A OUTPUT -p tcp -m tcp --sport 22 -j ACCEPT -A OUTPUT -o eth0 -p udp -m udp --dport 53 -j ACCEPT
前三個規則顯示,默認狀況下流量已被丟棄。剩下的規則表示容許 SSH 和 DNS 流量。在這種狀況下,若是須要容許流量到外部端點的規則,請跟上 sysadmin。若是這是用於本地開發或測試的主機,可以使用 iptables 命令來容許合適的流量。添加容許到主機的流量的規則時必定要謹慎。
一般會在企業管理的應用程序主機上使用 SELinux(一個 Linux 安全模塊)。SELinux 對主機上運行的進程提供最低權限的訪問,防止潛在的惡意進程訪問系統上的重要文件。某些狀況下,應用程序須要訪問特定文件,但可能會發生錯誤。要檢查 SELinux 是否阻止了應用程序,使用 tail 和 grep 在 /var/log/audit 日誌記錄中查找"denied"(被拒絕)的信息。不然,使用 sestatus 來檢查是否啓動了 SELinux。
$ sestatus SELinux status: enabled SELinuxfs mount: /sys/fs/selinux SELinux root directory: /etc/selinux Loaded policy name: targeted Current mode: enforcing Mode from config file: enforcing Policy MLS status: enabled Policy deny_unknown status: allowed Max kernel policy version: 28
上面的輸出表示應用程序的主機已啓用 SELinux。在本地開發環境中,能夠更新 SELinux 使得權限更寬鬆。
當你使用大量的命令進行測試和調試時,可能會忘記有用的命令。每一個 shell 都有一個 history 命令的變體。它可顯示自會話開始以來使用的命令的歷史記錄。可使用 history 來記錄用來排除應用程序故障的命令。history 命令用於顯示指定數目的指令命令,讀取歷史命令文件中的目錄到歷史命令緩衝區和將歷史命令緩衝區中的目錄寫入命令文件。
$ history 1 clear 2 df -h 3 du
若是但願執行以前歷史記錄中的命令,但又不想從新輸入,該怎麼辦?使用符號 ! 便可,可使用符號 ! 執行指定序號的歷史命令。例如,要執行第 2 個歷史命令,則輸入!2,
在須要從新執行的命令的指定編號前添加 ! 便可從新執行
這些基本命令能加強排查故障的專業技能,可檢查爲何應用程序能夠在一個開發環境中工做,而在另外一個開發環境中則不能夠。許多系統管理員使用這些命令來調試系統問題。瞭解一些有用的故障排查命令可幫助解決應用程序的問題。