网络拓扑自动发现耗资源吗？真实场景下的CPU和带宽占用分析

上周帮朋友公司查网络卡顿，发现后台开着一个“智能拓扑发现”服务，CPU 占用常年 12%～15%，网卡收包速率也比平时高一截。他纳闷：这功能不是“自动画个图”吗？咋还偷偷跑这么猛？

不是所有拓扑发现都一样

市面上常见三类实现方式，耗资源程度差得挺远：

基于 SNMP 轮询：每分钟扫一遍所有设备的接口状态、ARP 表、邻居表（CDP/LLDP）。设备越多、轮询间隔越短，CPU 和带宽压力越大；一台百台设备的小网，设成 5 分钟轮一次，基本无感；要是改成 30 秒，交换机 SNMP 进程就开始喘粗气。
基于流量镜像+NetFlow/sFlow：需要交换机开启端口镜像，把流量复制一份给分析服务器。不占被管理设备 CPU，但镜像本身会吃掉交换机转发性能（尤其千兆口镜像到百兆分析口，容易丢包），分析服务器的内存和磁盘 I/O 明显升高——我们实测过，1Gbps 镜像流持续跑，一台 8G 内存的分析机内存占用直接冲到 70%+。
轻量级主动探测（比如 ping + arp-scan）：脚本每 2 分钟扫一次局域网段，发 ICMP 请求+ARP 请求。对核心设备几乎没压力，但只能看到 IP 层连通性，画不出真实物理连线（比如中间隔了光模块、配了 MSTP 的环网，它就认成直连）。

同一台 Windows Server 2019，装 Zabbix 6.0 做拓扑发现：

# 默认配置（每 60 秒扫描全网段）
# 扫描范围：192.168.1.0/24 + 192.168.2.0/24
# 启用 SNMP + ICMP + ARP 探测
→ 平均 CPU 占用：9%～13%，内存稳定在 1.2G

# 改为仅 ICMP + ARP，关闭 SNMP，扫描间隔拉长到 300 秒
→ CPU 占用回落至 2%～4%，内存降到 800MB 左右

关键不是“开不开”，而是“怎么开”。很多工具默认全开+高频扫描，就像手机后台永远开着定位+蓝牙+Wi-Fi 扫描，电量掉得快，你还不知道为啥。

家里路由器接 3 台电脑+2 个摄像头+1 个NAS？用爱快或 OpenWrt 自带的「网络地图」就够用了，它只在你点开页面时临时抓一次 ARP 表，关掉页面就停，零常驻资源。

小公司 20 台终端+1 台核心交换机+2 台无线 AP？手动画张 Visio 图，每周五花 3 分钟更新下 IP 和设备型号，比让软件天天“心跳式”探测更省心。

真正该开自动发现的场景，其实是：设备经常插拔（比如测试实验室）、IP 地址全靠 DHCP 分配、且出问题必须秒定位物理链路——这时候多花点资源换来的快速排障，才值回票价。