Linux內核根據應用程序的要求分配內存,一般來講應用程序分配了內存可是並無實際所有使用,爲了提升性能,這部分沒用的內存能夠留做它用,這部份內存是屬於每一個進程的,內核直接回收利用的話比較麻煩,因此內核採用一種過分分配內存(over-commit memory)的辦法來間接利用這部分「空閒」的內存,提升總體內存的使用效率。通常來講這樣作沒有問題,但當大多數應用程序都消耗完本身的內存的時候麻煩就來了,由於這些應用程序的內存需求加起來超出了物理內存(包括swap)的容量,內核(OOM killer)必須殺掉一些進程才能騰出空間保障系統正常運行。用銀行的例子來說可能更容易懂一些,部分人取錢的時候銀行不怕,銀行有足夠的存款應付,當全國人民(或者絕大多數)都取錢並且每一個人都想把本身錢取完的時候銀行的麻煩就來了,銀行其實是沒有這麼多錢給你們取的。html
好比某天一臺機器忽然ssh遠程登陸不了,但能ping通,說明不是網絡的故障,緣由是sshd進程被OOM killer殺掉了。重啓機器後查看系統日誌/var/log/messages會發現Out of Memory:Killprocess 1865(sshd)相似的錯誤信息。又好比有時VPS的MySQL老是平白無故掛掉,或者VPS 常常死機,登錄到終端發現都是常見的 Out of memory 問題。這一般是由於某時刻應用程序大量請求內存致使系統內存不足形成的,這時會觸發 Linux 內核裏的 Out of Memory (OOM) killer,OOM killer 會殺掉某個進程以騰出內存留給系統用,不致於讓系統馬上崩潰。若是檢查相關的日誌文件(/var/log/messages)就會看到下面相似的Out of memory:Kill process 信息:java
...node
Out of memory: Kill process 9682(mysqld) score 9 or sacrifice childmysql
Killed process 9682, UID 27,(mysqld) total-vm:47388kB, anon-rss:3744kB, file-rss:80kBlinux
httpd invoked oom-killer:gfp_mask=0x201da, order=0, oom_adj=0, oom_score_adj=0redis
httpd cpuset=/ mems_allowed=0算法
Pid: 8911, comm: httpd Not tainted2.6.32-279.1.1.el6.i686 #1sql
...api
21556 total pagecache pagesbash
21049 pages in swap cache
Swap cache stats: add 12819103,delete 12798054, find 3188096/4634617
Free swap = 0kB
Total swap = 524280kB
131071 pages RAM
0 pages HighMem
3673 pages reserved
67960 pages shared
124940 pages non-shared
Linux內核有個機制叫OOM killer(Out-Of-Memory killer),該機制會監控那些佔用內存過大,尤爲是瞬間很快消耗大量內存的進程,爲了防止內存耗盡內核會把該進程殺掉。
內核檢測到系統內存不足、挑選並殺掉某個進程的過程能夠參考內核源代碼 linux/mm/oom_kill.c,當系統內存不足的時候,out_of_memory()被觸發,而後調用 select_bad_process() 選擇一個「bad」進程殺掉,判斷和選擇一個「bad」進程的過程由 oom_badness()決定,最 bad 的那個進程就是那個最佔用內存的進程。
/**
* oom_badness -heuristic function to determine which candidate task to kill
* @p: taskstruct of which task we should calculate
* @totalpages:total present RAM allowed for page allocation
*
* The heuristicfor determining which task to kill is made to be as simple and
* predictableas possible. The goal is to return thehighest value for the
* task consumingthe most memory to avoid subsequent oom failures.
*/
unsigned long oom_badness(struct task_struct *p,struct mem_cgroup *memcg,
const nodemask_t *nodemask, unsigned longtotalpages)
{
long points;
long adj;
if (oom_unkillable_task(p, memcg, nodemask))
return 0;
p = find_lock_task_mm(p);
if (!p)
return 0;
adj = (long)p->signal->oom_score_adj;
if (adj == OOM_SCORE_ADJ_MIN) {
task_unlock(p);
return 0;
}
/*
* The baseline for thebadness score is the proportion of RAM that each
* task's rss, pagetable and swap space use.
*/
points = get_mm_rss(p->mm) + atomic_long_read(&p->mm->nr_ptes)+
get_mm_counter(p->mm, MM_SWAPENTS);
task_unlock(p);
/*
* Root processes get 3% bonus, just like the__vm_enough_memory()
* implementation used by LSMs.
*/
if (has_capability_noaudit(p,CAP_SYS_ADMIN))
adj -= (points * 3) / 100;
/*Normalize to oom_score_adj units */
adj *= totalpages / 1000;
points += adj;
/*
* Never return 0 for an eligible taskregardless of the root bonus and
* oom_score_adj (oom_score_adj can't beOOM_SCORE_ADJ_MIN here).
*/
returnpoints > 0 ? points : 1;
}
從上面的 oom_kill.c 代碼裏能夠看到 oom_badness() 給每一個進程打分,根據 points 的高低來決定殺哪一個進程,這個 points 能夠根據 adj 調節,root 權限的進程一般被認爲很重要,不該該被輕易殺掉,因此打分的時候能夠獲得 3% 的優惠(分數越低越不容易被殺掉)。咱們能夠在用戶空間經過操做每一個進程的 oom_adj 內核參數來決定哪些進程不這麼容易被 OOM killer 選中殺掉。好比,若是不想 MySQL 進程被輕易殺掉的話能夠找到 MySQL 運行的進程號後,調整 /proc/PID/oom_score_adj 爲 -15(注意 points越小越不容易被殺)防止重要的系統進程觸發(OOM)機制而被殺死,內核會經過特定的算法給每一個進程計算一個分數來決定殺哪一個進程,每一個進程的oom分數能夠在/proc/PID/oom_score中找到。每一個進程都有一個oom_score的屬性,oom killer會殺死oom_score較大的進程,當oom_score爲0時禁止內核殺死該進程。設置/proc/PID/oom_adj能夠改變oom_score,oom_adj的範圍爲【-17,15】,其中15最大-16最小,-17爲禁止使用OOM,至於爲何用-17而不用其餘數值(默認值爲0),這個是由linux內核定義的,查看內核源碼可知:路徑爲linux-xxxxx/include /uapi/linux/oom.h。