2025-09-10
我们如何在真实空间里测试 AI 管理环境
测试 AI 管理环境不能一上来就讲接管现实。更合理的顺序是先观察,再解释,再建议,最后只在小边界里执行动作。
我们如何在真实空间里测试 AI 管理环境
“AI 管理环境”这个说法,我自己看着都有点不舒服。
太像宣传词。
好像下一秒就要放一张未来办公室的图,说所有设备都被 AI 接管了。
我不想这么做。
如果真要测试,应该从很小、很烦、很具体的地方开始。
比如一组服务器。
比如一个摄像头场景。
比如一个医疗质控流程。
比如一段用户行为流。
先别让它动手
现实环境里的动作是有成本的。
重启服务可能影响业务。错误告警会烦人。误操作会留下坑。摄像头和医疗数据还有隐私边界。安全系统更不用说,乱动比不动还糟。
所以我现在不太相信那种一上来就“全自动 Agent”的说法。
Infra Monitor 这里我会更保守。
先看。
哪台机器离线了。哪台压力不对。哪台安全姿态变差。哪个服务最近不稳定。然后让 AI 解释一下:这些变化可能有关吗?是不是值得人看一眼?
这已经有价值了。
不是非要它立刻重启什么。
空间不一定有墙
我以前说真实空间,容易让人想到房间。
但其实一组服务器也是空间。一个网络资产集合也是空间。一个医院里的质控流程也是空间。一个产品的用户行为流,也可以算一个空间。
它们都有对象。
都有状态。
都有规则。
都有变化。
AI 如果能在这个范围里持续看,能把分散信号解释成人能理解的东西,就已经不是普通聊天机器人了。
它在系统旁边。
这个“旁边”很重要。
一个很小的实验
我现在脑子里的实验不是宏大的。
它可能只是:选一组机器,连续跑几周。
让 Infra Monitor 收状态。让安全姿态信号进来。让服务、容器、指标、登录面、文件只读浏览这些东西在同一个视角里。AI 先不做动作,只写解释。
它解释错了,就记下来。
它过度自信,也记下来。
它帮我少看了几个 dashboard,也记下来。
等解释层比较稳定,再考虑给它很小的动作权限。比如只允许对 allowlist 里的服务做操作,只允许提出建议,不直接执行,或者执行前必须让人确认。
听起来慢。
但真实环境就应该慢一点。
我想看的结果
我不想只看 demo 那一分钟。
demo 很容易好看。
我想看它过夜以后怎么样。噪声变多以后怎么样。某台机器连续几天状态不对时,它会不会发现。人忙起来没看 dashboard 时,它会不会把真正重要的东西拎出来。
如果它做不到这些,那就还是一个会聊天的控制台。
如果它能做到一点点,那就有意思了。
AI 管理环境这件事,不应该从“接管”开始。
应该从“帮我看着”开始。