如何清理 Linux 僵尸进程?
1. 什么是僵尸进程?
Linux 中的僵尸进程(Zombie processes)有时也被称为失效或死亡进程。它们是已执行完毕的进程,但其条目并未从进程表中删除。
2.1 进程状态
Linux 会维护一个进程表,其中包含所有正在运行的进程及其状态。下面简要介绍一下各种进程状态:
-
(1)Running (R): 表示这些进程目前正在运行或可运行,用字母 R 表示。需要说明:进程是 R 状态,不代表正在运行,代表可被调度。换句话说,进程只有是 R 状态才可被调度,其他状态要先转为 R 状态,才能被 OS 调度;
-
(2)Waiting (S/D): 表示这些进程正在等待事件完成或某种资源就绪,用字母 S/D 表示,等待可以是可中断休眠 S(interruptible sleep) 或不中断休眠 D (uninterruptible sleep);
-
(3)Stopped (T): 可以通过发送 SIGSTOP 信号给进程来停止(T)进程。这个被暂停的进程可以通过发送 SIGCONT 信号让进程继续运行。
-
(4)Zombie (Z): 一个比较特殊的状态。当子进程退出并且父进程没有读取到子进程退出的返回代码时,就会产生僵死(尸)进程。
- 僵死进程会以终止状态保持在进程表中,并且会一直在等待父进程读取退出状态代码。所以,只要子进程退出,父进程还在运行,但父进程没有读取子进程状态,子进程进入 Z 状态。
僵尸进程是如何产生的?
当一个进程完成其工作时,Linux 内核会通过发送 SIGCHLD 信号通知其父进程。
然后,父进程执行 wait()
系统调用,读取子进程的状态并读取其退出代码。这会清除进程表中子进程条目,从而结束进程。
但是,如果父进程没有在创建子进程时执行 wait()
系统调用,就不会进行适当的清理。在这种情况下,父进程无法监控子进程的状态变化,最终会忽略 SIGCHLD 信号。这将导致已完成进程的僵尸状态留在进程表中,从而使其作为僵尸进程出现在进程列表中。
搜索僵尸进程
使用 ps 命令来检索僵尸进程列表:
ps ux
USER PID %CPU %MEM VSZ RSS TTY STAT START TIME COMMAND
shubh 9 0.0 0.0 16916 2760 tty1 S Dec19 0:00 /bin/bash --login
shubh 108 0.0 0.0 0 0 tty1 Z 16:25 0:00 [zombie] <defunct>
shubh 109 0.0 0.0 17384 1928 tty2 R 16:25 0:00 ps ux
从输出中可以看出,STAT 列中的 Z 即为僵尸进程状态,或者使用 awk 命令根据 Z 进程状态进一步过滤输出:
ps ux | awk '{if($8=="Z") print}'
shubh 108 0.0 0.0 0 0 tty1 Z 16:25 0:00 [zombie] <defunct>
另一种方法是使用 top 命令:
top
Tasks: 8 total, 1 running, 6 sleeping, 0 stopped, 1 zombie
%Cpu(s): 0.7 us, 1.6 sy, 0.0 ni, 96.5 id, 0.0 wa, 1.2 hi, 0.0 si, 0.0 st
KiB Mem : 8269412 total, 3161228 free, 4878832 used, 229352 buff/cache
KiB Swap: 15483260 total, 14830144 free, 653116 used. 3256848 avail Mem
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
1 root 20 0 8936 192 148 S 0.0 0.0 0:00.17 init
8 root 20 0 8936 96 56 S 0.0 0.0 0:00.00 init
9 shubh 20 0 16916 2748 2640 S 0.0 0.0 0:00.43 bash
76 root 20 0 8936 224 184 S 0.0 0.0 0:00.00 init
77 shubh 20 0 16784 3432 3332 S 0.0 0.0 0:00.35 bash
161 shubh 20 0 0 0 0 Z 0.0 0.0 0:00.00 zombie
162 shubh 20 0 17624 2084 1508 R 0.0 0.0 0:00.00 top
top 除了输出其他详细信息外,还可以在输出顶部的摘要中看到僵尸进程的数量。
清理僵尸进程
我们无法真正杀死僵尸进程,因为本身它已经结束了。但是,可以使用一些方法来清理僵尸进程。
使用 SIGCHLD 信号
可以手动向僵尸进程的父进程发送 SIGCHLD 信号。这样,父进程就会主动触发 wait()
系统调用,从而从进程表中清除已失效的子进程。
找到僵尸进程的父进程 PID:
ps -A -ostat,pid,ppid | grep -e '[zZ]'
Z 108 103
不过,并不能保证向父进程发送 SIGCHLD 信号就能杀死僵尸进程。只有在父进程可以处理 SIGCHLD 信号的情况下,它才会起作用。
kill 父过程
如果上一节的方法无法清除失效进程,就需要考虑杀死其父进程:
kill -9 103
但是,杀死父进程会影响其所有子进程。因此,应该格外谨慎,在杀死父进程之前必须确定其影响。
如果存在大量僵尸进程,或者僵尸进程的父进程是 init 进程(pid=1),可以考虑重启系统来清除失效进程。