linux 運維（工做）

時間 2019-11-24

標籤 linux 欄目 Linux 简体版

原文原文鏈接

先來一些基礎操做：java

查看內存使用狀況：（注意：1. 真實可用內存=free + cached 2.Swap的使用量若是較大，將嚴重影響應用的性能）python

[@yd-80-133 ~] # free -m

total used free shared buffers cached

Mem: 96636 96400 235 0 522 75056

-/+ buffers /cache : 20821 75814

Swap: 8189 49 8139

查看磁盤使用狀況：（若是你部署應用的磁盤使用率100%，你的應用就會變得不可用）mysql

[@yd-81-74 ~] # df -h

Filesystem Size Used Avail Use% Mounted on

/dev/sda1 3.9G 977M 2.8G 26% /

/dev/sda6 1.4T 194G 1.1T 16% /opt

/dev/sda3 3.9G 2.4G 1.3G 66% /var

/dev/sda5 4.9G 3.0G 1.7G 64% /usr

tmpfs 12G 38M 12G 1% /dev/shm

10.13.81.44: /data/scribelog

21T 7.3T 13T 37% /opt/scribelog

查看系統概況：（top命令，能夠看到不少信息。shift+p按cpu倒序,shift+m按內存倒序,1查看每一個cpu繁忙程度）linux

top - 16:38:58 up 1019 days, 1:53, 28 users , load average: 0.77, 0.53, 0.56

Tasks: 325 total, 1 running, 324 sleeping, 0 stopped, 0 zombie

Cpu(s): 0.7%us, 0.3%sy, 0.0%ni, 98.6% id , 0.4%wa, 0.0%hi, 0.0%si, 0.0%st

Mem: 24659996k total, 22502624k used, 2157372k free , 118628k buffers

Swap: 4192956k total, 13344k used, 4179612k free , 324068k cached

PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND

4033 root      18   0 1996m 975m  13m S 159.0  4.1   6:40.52 java

12336 root      18   0 2020m 1.2g  10m S  9.8  5.3   2860:34 java

3484 root      34  19     0    0    0 S  2.0  0.0  16159:29 kipmi0

7350 root 15 0 12868 1192 740 R 2.0 0.0 0:00.01 top

29636 smc       21   0 1092m 579m  14m S  2.0  2.4   1:20.44 java

30469 smc 21 0 1075m 708m 14m S 2.0 2.9 5:34.31 java

查看一個進程有多少線程：nginx

[@yd-81-211 ~]$ ps -eLf | grep 24941 | wc -l

583

查看端口被哪一個進程佔用：（pid顯示的就是那個進程）web

[@yd-81-74 ~] # lsof -i tcp:8080

COMMAND PID USER FD TYPE DEVICE SIZE NODE NAME

java 30469 smc 239u IPv4 64471973 TCP 10.13.81.74:webcache (LISTEN)

這個命令還能夠查看文件被哪一個進程佔用

[@yd-81-130 nginx] # lsof | grep /data/log/scribelog

bash 4171 smc cwd DIR 0,23 16384 17797 /data/log/scribelog/user (10.13.81.44: /data/scribelog/ )

cat 4172 smc cwd DIR 0,23 16384 17797 /data/log/scribelog/user (10.13.81.44: /data/scribelog/ )

查看端口是否在監聽：（最後一列顯示哪一個進程在監聽這個端口）算法

[@yd-81-74 ~] # netstat -nalp | grep 8080

tcp        0      0 10.13.81.74:8080            0.0.0.0:*                   LISTEN      30469

/java

比較兩個文件是否同樣：spring

md5sum targetfile.txt > targetfile.md5

把targetfile.md5和targetfile.txt放到同一目錄下進行校驗：

md5sum -c targetfile.md5

下面是咱們遇到過的狀況，若有錯誤或須要補充的內容，請直接修改。 sql

內存異常：
♦ java.lang.OutOfMemoryError: PermGen space
》resin熱部署，從新加載jar包
》持久代設置得過小：-XX:PermSize=32m -XX:MaxPermSize=64ma
》常見於測試環境，線上基本不會出現這種問題。
♦ java.lang.OutOfMemoryError: Java heap space
》一般狀況是從數據庫或緩存加載了大量數據或者用戶上傳了大量文件。
》通常來講，因爲會觸發GC，只要代碼不存在內存泄漏問題，線上很難出現這個異常。
》解決辦法：重啓、修復代碼隱患
♦ java.lang.OutOfMemoryError: GC overhead limit exceeded
》這是由於使用併發收集算法進行GC，而且jvm啓動參數中加了-XX:-UseGCOverheadLimit選項。
》目前只在hive的應用中遇到此狀況，線上應用通常是CMS算法，不會出現這種狀況。
》解決辦法：增長heap size或者禁用上面那個選項。
♦ 不少時候內存異常並不會表現爲異常，尚未達到這個臨界點，你的系統就已經不可用了，這個時候須要主動去檢查內存使用狀況：
》查詢GC狀態，看一下jvm是否在進行GC操做（下面是一個示例，等下次碰到典型場景再貼一個）：數據庫

[@tc-152-92 ~]$ jstat -gcutil 16590 3000

S0 S1 E O P YGC YGCT FGC FGCT GCT

0.00 0.00 85.96 90.60 54.20 3336 0.781 38188 13952.038 13952.819

0.00 0.00 91.42 90.60 54.20 3336 0.781 38189 13952.565 13953.346

0.00 0.00 97.43 90.60 54.20 3336 0.781 38190 13952.960 13953.741

》查詢java對象內存佔用狀況，看一下內存裏的java對象是否合理（下面只是一個例子，等下次碰到內存佔用異常的場景我再貼一個）。

[@zjm-110-88 ~]$ jmap -histo 2234 | head -10

num #instances #bytes class name

----------------------------------------------

1: 3373503 2209452824 [C

2: 3334031 133361240 java.lang.String

3: 260 101301344 [Lcom.caucho.util.LruCache$CacheItem;

4: 326846 63127704 [Ljava.lang.Object;

5: 151274 50828064 com.wap.sohu.mobilepaper.model.NewsContent

6: 19812 45474976 [I

7: 110209 40197776 [B

8: 145988 30902344 [Ljava.util.HashMap$Entry;

9: 1846859 29549744 java.lang.Object

10: 270121 19448712 com.wap.sohu.mobilepaper.model.xml.Image

♦ 經常使用jvm參數：

-XX:MaxPermSize=512m -XX:PermSize=512m -Xss128k

-Xmx4096m -Xms4096m -Xmn1024m

-XX:+UseConcMarkSweepGC -XX:CMSInitiatingOccupancyFraction=85 -XX:+PrintGCDetails

-XX:MaxTenuringThreshold=30

CPU異常：
♦ 運行的線程多了，咱們的應用裏有很多線程去異步地執行任務，可能某個時間點或事件觸發了大量線程同時去執行操做，致使cpu資源緊張。
♦ 程序運行的慢了，好比大量的計算操做，頻繁地進行循環遍歷。
♦ io操做多，好比頻繁地打印日誌，頻繁地進行網絡訪問（mysql,memcache)。
♦ 過多的同步操做。好比synchronize
♦ 通常狀況下，咱們都是經過觀察jvm的棧信息來識別程序的異常，主要看java.lang.Thread.State這個值，通常BLOCKED和RUNNABLE都須要重點關注。BLOCKED狀態確定是有鎖，好比頻繁的IO操做會致使資源BLOCK或者咱們代碼裏顯式的加鎖。RUNNABLE狀態理論上是正常的，可是頗有多是邏輯處理太慢（好比網絡io或計算）或調用頻繁致使一段代碼執行時間較長，這個也須要優化。

[@yd-80-133 ~]$ jstack 1344

2013-06-08 16:15:42

Full thread dump Java HotSpot(TM) 64-Bit Server VM (20.8-b03 mixed mode):

"pool-40-thread-5" prio=10 tid=0x000000005cea6800 nid=0x639c runnable [0x00000000493c5000]

java.lang.Thread.State: RUNNABLE

at java.net.SocketInputStream.socketRead0(Native Method)

at java.net.SocketInputStream. read (SocketInputStream.java:129)

at com.mysql.jdbc.util.ReadAheadInputStream.fill(ReadAheadInputStream.java:114)

at com.mysql.jdbc.util.ReadAheadInputStream.readFromUnderlyingStreamIfNecessary(ReadAheadInputStream.java:161)

at com.mysql.jdbc.util.ReadAheadInputStream. read (ReadAheadInputStream.java:189)

- locked <0x000000074c115a08> (a com.mysql.jdbc.util.ReadAheadInputStream)

at com.mysql.jdbc.MysqlIO.readFully(MysqlIO.java:3014)

at com.mysql.jdbc.MysqlIO.reuseAndReadPacket(MysqlIO.java:3467)

at com.mysql.jdbc.MysqlIO.reuseAndReadPacket(MysqlIO.java:3456)

at com.mysql.jdbc.MysqlIO.checkErrorPacket(MysqlIO.java:3997)

at com.mysql.jdbc.MysqlIO.sendCommand(MysqlIO.java:2468)

at com.mysql.jdbc.MysqlIO.sqlQueryDirect(MysqlIO.java:2629)

at com.mysql.jdbc.ConnectionImpl.execSQL(ConnectionImpl.java:2719)