如何在Linux命令行中进行系统监控?

答案:Linux系统监控需分层使用top/htop、free/df、iostat/vmstat、ss等工具,分别查看资源占用、内存磁盘、I/O及网络状态。

如何在Linux命令行中进行系统监控?

在Linux命令行中进行系统监控,核心就是利用那些内置的小工具,它们虽小,却能揭示系统运行的方方面面,从CPU、内存到磁盘I/O和网络活动,几乎无所不包。这不仅仅是看几个数字,更像是在跟系统进行一场“对话”,理解它此刻的“感受”和“状态”。

解决方案

Linux命令行下的系统监控,没有一个“万能药”,它更像是一个工具箱,里面装着各种趁手的工具,根据你想要了解什么,去选择对应的工具。通常,我会把这个过程分解为几个层次:先宏观概览,再深入细节。

首先,你需要一个实时查看系统整体状况的工具,比如

top

htop

,它们能告诉你CPU和内存的占用大户是谁。接着,如果你发现内存或磁盘有问题,

free

df

会是你最好的朋友。当怀疑I/O成为瓶颈时,

iostat

vmstat

就能派上用场。最后,网络状况则可以交给

ss

netstat

。这些工具都是从

/proc

文件系统读取数据,所以它们提供的信息是相当底层的、真实的。

实时资源占用概览:

top

htop

的选择与实践

当我们谈到Linux命令行下的实时系统监控,脑子里首先蹦出来的,大概率是

top

。它确实经典,一运行就能看到CPU、内存的总体情况,以及当前运行的进程列表。我用

top

的习惯是,按

P

按CPU占用排序,按

M

内存占用排序,快速定位那些“吃资源”的家伙。如果你想杀死一个进程,记住它的PID,按

k

,输入PID,再回车就行。

不过,说实话,我个人更偏爱

htop

。如果你服务器上能装,我强烈建议你试试。

htop

相比

top

,简直是用户体验的飞跃。它有彩色的输出,更直观的CPU核心使用条形图,而且操作起来也更方便,用鼠标或者方向键就能滚动、排序、过滤进程。比如,我经常用F4来搜索特定进程,或者用F6来改变排序字段。这种直观性,在需要快速排查问题,尤其是在生产环境中,能大大提升效率。我记得有一次,一个应用突然响应缓慢,

htop

的CPU条形图直接告诉我哪个核心被某个进程占满了,省去了我不少猜测的时间。它俩本质上都是通过读取

/proc

文件系统里的信息来展示进程和系统状态,只是

htop

在展示和交互上做了很多优化。

内存与磁盘空间:

free

df

的深度解读

内存和磁盘空间,这两个资源是系统稳定运行的基石。我经常遇到一些新手,看到

free -h

输出的

free

内存很小,就以为系统快要崩溃了,实际上这往往是一种误解。

free -h

是我的日常,它会用人类可读的格式显示内存使用情况。这里面最容易让人困惑的就是

buff/cache

这一项。Linux系统为了提高I/O性能,会把很多数据缓存到内存中,这就是

buff/cache

。所以,

free

那一列显示的是“真正”空闲的内存,而

available

(可用)那一列,才是系统在不进行交换(swap)的情况下,可以立即分配给应用程序的内存。通常,只要

available

内存足够,系统就不会出现内存不足的问题。我以前也犯过这样的错误,盯着

free

那一小点数字紧张,后来才明白

available

才是关键。

如何在Linux命令行中进行系统监控?

Riffo

Riffo是一个免费的文件智能命名和管理工具

如何在Linux命令行中进行系统监控?131

查看详情 如何在Linux命令行中进行系统监控?

至于磁盘空间,

df -hT

是我的首选。

df

会列出所有文件系统(包括虚拟文件系统),

-h

同样是为了可读性,

-T

则能显示文件系统类型,这在排查特定文件系统问题时很有用。我最关注的是

Used%

Mounted on

。如果某个分区的

Used%

过高,比如超过80%甚至90%,那就得警惕了,因为磁盘空间不足会导致很多意想不到的问题,比如日志无法写入、应用崩溃等。我曾遇到过一个数据库服务器,因为

/var

分区被日志填满,导致数据库无法启动,这时候

df

就成了我快速定位问题的关键。除了空间占用,

df -i

还可以查看inode的使用情况,虽然不常见,但在某些场景下(比如大量小文件),inode耗尽也会导致无法创建新文件。

I/O与网络:

iostat

vmstat

ss

的洞察力

当CPU和内存看起来都正常,但系统响应依然迟缓时,我通常会把目光转向I/O和网络。这两者往往是隐藏的性能杀手。

iostat -xz 1

是我用来检查磁盘I/O的利器。

-x

显示扩展统计信息,

-z

则隐藏没有活动的设备,让输出更简洁,

1

表示每秒刷新一次。我主要关注

%util

(设备利用率),如果这个值长时间接近100%,那说明磁盘已经非常繁忙,很可能是I/O瓶颈。另外,

await

(I/O请求的平均等待时间)和

svctm

(平均服务时间)也能提供很多信息。我曾经遇到一个Web服务器,CPU和内存都很空闲,但页面加载奇慢,最后发现是

iostat

显示数据库日志盘的

%util

一直居高不下,定位到是磁盘I/O瓶颈后,优化了数据库配置才解决。

vmstat 1

则提供了一个更全面的系统概览,它不仅仅是I/O,还包括了进程、内存、交换、系统和CPU的使用情况。对我来说,

vmstat

最大的价值在于它的

wa

(wait I/O)列。如果CPU的

wa

值很高,意味着CPU大部分时间都在等待磁盘I/O完成,这也是I/O瓶颈的一个强烈信号。同时,它还能快速查看

si

so

(swap in/out),如果这两个值持续很高,说明系统正在频繁地进行内存交换,这通常预示着内存不足。

最后是网络,

ss -tunlp

是我的首选,它比老旧的

netstat

更快、更强大。

-T

显示TCP连接,

-u

显示UDP连接,

-n

不解析服务名和主机名,

-l

显示监听端口

-p

显示进程信息。通过这个命令,我可以快速看到当前系统开放了哪些端口,哪些服务正在监听,以及哪些连接是ESTABLISHED(已建立)、TIME_WAIT(等待关闭)等等。我经常用它来排查端口冲突、服务未启动或者网络连接异常的问题。比如,一个服务启动失败,

ss -tunlp | grep <port>

可以告诉我这个端口是否已经被其他进程占用。

linux node 端口 工具 ai ios linux系统 linux命令 内存占用 var 数据库 udp linux

上一篇
下一篇