2025-09-10

我们如何在真实空间里测试 AI 管理环境

测试 AI 管理环境不能一上来就讲接管现实。更合理的顺序是先观察,再解释,再建议,最后只在小边界里执行动作。

aireal-world-aienvironmenttestingsafety

我们如何在真实空间里测试 AI 管理环境

“AI 管理环境”这个说法,我自己看着都有点不舒服。

太像宣传词。

好像下一秒就要放一张未来办公室的图,说所有设备都被 AI 接管了。

我不想这么做。

如果真要测试,应该从很小、很烦、很具体的地方开始。

比如一组服务器。

比如一个摄像头场景。

比如一个医疗质控流程。

比如一段用户行为流。

先别让它动手

现实环境里的动作是有成本的。

重启服务可能影响业务。错误告警会烦人。误操作会留下坑。摄像头和医疗数据还有隐私边界。安全系统更不用说,乱动比不动还糟。

所以我现在不太相信那种一上来就“全自动 Agent”的说法。

Infra Monitor 这里我会更保守。

先看。

哪台机器离线了。哪台压力不对。哪台安全姿态变差。哪个服务最近不稳定。然后让 AI 解释一下:这些变化可能有关吗?是不是值得人看一眼?

这已经有价值了。

不是非要它立刻重启什么。

空间不一定有墙

我以前说真实空间,容易让人想到房间。

但其实一组服务器也是空间。一个网络资产集合也是空间。一个医院里的质控流程也是空间。一个产品的用户行为流,也可以算一个空间。

它们都有对象。

都有状态。

都有规则。

都有变化。

AI 如果能在这个范围里持续看,能把分散信号解释成人能理解的东西,就已经不是普通聊天机器人了。

它在系统旁边。

这个“旁边”很重要。

一个很小的实验

我现在脑子里的实验不是宏大的。

它可能只是:选一组机器,连续跑几周。

让 Infra Monitor 收状态。让安全姿态信号进来。让服务、容器、指标、登录面、文件只读浏览这些东西在同一个视角里。AI 先不做动作,只写解释。

它解释错了,就记下来。

它过度自信,也记下来。

它帮我少看了几个 dashboard,也记下来。

等解释层比较稳定,再考虑给它很小的动作权限。比如只允许对 allowlist 里的服务做操作,只允许提出建议,不直接执行,或者执行前必须让人确认。

听起来慢。

但真实环境就应该慢一点。

我想看的结果

我不想只看 demo 那一分钟。

demo 很容易好看。

我想看它过夜以后怎么样。噪声变多以后怎么样。某台机器连续几天状态不对时,它会不会发现。人忙起来没看 dashboard 时,它会不会把真正重要的东西拎出来。

如果它做不到这些,那就还是一个会聊天的控制台。

如果它能做到一点点,那就有意思了。

AI 管理环境这件事,不应该从“接管”开始。

应该从“帮我看着”开始。