答案:Linux系统监控需分层使用top/htop、free/df、iostat/vmstat、ss等工具,分别查看资源占用、内存磁盘、I/O及网络状态。
在Linux命令行中进行系统监控,核心就是利用那些内置的小工具,它们虽小,却能揭示系统运行的方方面面,从CPU、内存到磁盘I/O和网络活动,几乎无所不包。这不仅仅是看几个数字,更像是在跟系统进行一场“对话”,理解它此刻的“感受”和“状态”。
解决方案
Linux命令行下的系统监控,没有一个“万能药”,它更像是一个工具箱,里面装着各种趁手的工具,根据你想要了解什么,去选择对应的工具。通常,我会把这个过程分解为几个层次:先宏观概览,再深入细节。
首先,你需要一个实时查看系统整体状况的工具,比如
top
或
htop
,它们能告诉你CPU和内存的占用大户是谁。接着,如果你发现内存或磁盘有问题,
free
和
df
会是你最好的朋友。当怀疑I/O成为瓶颈时,
iostat
和
vmstat
就能派上用场。最后,网络状况则可以交给
ss
或
netstat
。这些工具都是从
/proc
文件系统读取数据,所以它们提供的信息是相当底层的、真实的。
实时资源占用概览:
top
top
与
htop
的选择与实践
当我们谈到Linux命令行下的实时系统监控,脑子里首先蹦出来的,大概率是
top
。它确实经典,一运行就能看到CPU、内存的总体情况,以及当前运行的进程列表。我用
top
的习惯是,按
P
按CPU占用排序,按
M
按内存占用排序,快速定位那些“吃资源”的家伙。如果你想杀死一个进程,记住它的PID,按
k
,输入PID,再回车就行。
不过,说实话,我个人更偏爱
htop
。如果你服务器上能装,我强烈建议你试试。
htop
相比
top
,简直是用户体验的飞跃。它有彩色的输出,更直观的CPU核心使用条形图,而且操作起来也更方便,用鼠标或者方向键就能滚动、排序、过滤进程。比如,我经常用F4来搜索特定进程,或者用F6来改变排序字段。这种直观性,在需要快速排查问题,尤其是在生产环境中,能大大提升效率。我记得有一次,一个应用突然响应缓慢,
htop
的CPU条形图直接告诉我哪个核心被某个进程占满了,省去了我不少猜测的时间。它俩本质上都是通过读取
/proc
文件系统里的信息来展示进程和系统状态,只是
htop
在展示和交互上做了很多优化。
内存与磁盘空间:
free
free
与
df
的深度解读
内存和磁盘空间,这两个资源是系统稳定运行的基石。我经常遇到一些新手,看到
free -h
输出的
free
内存很小,就以为系统快要崩溃了,实际上这往往是一种误解。
free -h
是我的日常,它会用人类可读的格式显示内存使用情况。这里面最容易让人困惑的就是
buff/cache
这一项。Linux系统为了提高I/O性能,会把很多数据缓存到内存中,这就是
buff/cache
。所以,
free
那一列显示的是“真正”空闲的内存,而
available
(可用)那一列,才是系统在不进行交换(swap)的情况下,可以立即分配给应用程序的内存。通常,只要
available
内存足够,系统就不会出现内存不足的问题。我以前也犯过这样的错误,盯着
free
那一小点数字紧张,后来才明白
available
才是关键。
至于磁盘空间,
df -hT
是我的首选。
df
会列出所有文件系统(包括虚拟文件系统),
-h
同样是为了可读性,
-T
则能显示文件系统类型,这在排查特定文件系统问题时很有用。我最关注的是
Used%
和
Mounted on
。如果某个分区的
Used%
过高,比如超过80%甚至90%,那就得警惕了,因为磁盘空间不足会导致很多意想不到的问题,比如日志无法写入、应用崩溃等。我曾遇到过一个数据库服务器,因为
/var
分区被日志填满,导致数据库无法启动,这时候
df
就成了我快速定位问题的关键。除了空间占用,
df -i
还可以查看inode的使用情况,虽然不常见,但在某些场景下(比如大量小文件),inode耗尽也会导致无法创建新文件。
I/O与网络:
iostat
iostat
、
vmstat
与
ss
的洞察力
当CPU和内存看起来都正常,但系统响应依然迟缓时,我通常会把目光转向I/O和网络。这两者往往是隐藏的性能杀手。
iostat -xz 1
是我用来检查磁盘I/O的利器。
-x
显示扩展统计信息,
-z
则隐藏没有活动的设备,让输出更简洁,
1
表示每秒刷新一次。我主要关注
%util
(设备利用率),如果这个值长时间接近100%,那说明磁盘已经非常繁忙,很可能是I/O瓶颈。另外,
await
(I/O请求的平均等待时间)和
svctm
(平均服务时间)也能提供很多信息。我曾经遇到一个Web服务器,CPU和内存都很空闲,但页面加载奇慢,最后发现是
iostat
显示数据库日志盘的
%util
一直居高不下,定位到是磁盘I/O瓶颈后,优化了数据库配置才解决。
vmstat 1
则提供了一个更全面的系统概览,它不仅仅是I/O,还包括了进程、内存、交换、系统和CPU的使用情况。对我来说,
vmstat
最大的价值在于它的
wa
(wait I/O)列。如果CPU的
wa
值很高,意味着CPU大部分时间都在等待磁盘I/O完成,这也是I/O瓶颈的一个强烈信号。同时,它还能快速查看
si
和
so
(swap in/out),如果这两个值持续很高,说明系统正在频繁地进行内存交换,这通常预示着内存不足。
最后是网络,
ss -tunlp
是我的首选,它比老旧的
netstat
更快、更强大。
-T
显示TCP连接,
-u
显示UDP连接,
-n
不解析服务名和主机名,
-l
显示监听端口,
-p
显示进程信息。通过这个命令,我可以快速看到当前系统开放了哪些端口,哪些服务正在监听,以及哪些连接是ESTABLISHED(已建立)、TIME_WAIT(等待关闭)等等。我经常用它来排查端口冲突、服务未启动或者网络连接异常的问题。比如,一个服务启动失败,
ss -tunlp | grep <port>
可以告诉我这个端口是否已经被其他进程占用。
linux node 端口 工具 ai ios linux系统 linux命令 内存占用 var 数据库 udp linux