2025-07-24
我为什么相信现实世界智能是下一代 AI 方向
我越来越觉得,下一阶段的 AI 不是只在文本里变聪明,而是开始理解现实世界里的空间、设备、状态、风险和动作。
我为什么相信现实世界智能是下一代 AI 方向
这个判断不是某天想出来的。
更像是我做一堆东西做烦了以后,慢慢冒出来的。
模型已经很会说话了。这个没什么好争的。它会写,会总结,会帮我拆代码,也会在我脑子一团的时候,把一个问题重新排成几段。
但只要问题不是发生在文本里,它就会突然变笨。
比如一组服务器到底哪里不对。比如一个摄像头画面里发生了什么。比如一条证书流和哪个资产有关。比如医疗质控里那种说不清楚但就是让人不放心的流程问题。
这些问题不是一句 prompt。
它们先是一堆信号。
我说的不是机器人
“现实世界智能”这个词有点容易让人想到机器人。
我倒没那么机器人脑。
我想到的更多是 OmniNVR、Infra Monitor、NetSense CT、DHT 情报、Image Trace、MedTwin Quality、Radar 这些东西。它们名字很散,目录也很散,但它们都在干一件类似的事:把现实里某一小块东西先看清楚。
Infra Monitor 看服务器,不只是看 CPU。
OmniNVR 看空间,不只是录像。
NetSense CT 看证书流,不只是日志。
Radar 看访问行为,不只是 PV。
这些东西都还没有变成一个很完整的系统。很多地方也挺粗糙。我现在如果把它们包装成一张大图,会显得很像融资 PPT。
但我自己知道,它们确实在指向同一个方向。
AI 如果永远等人把问题整理成文字再问,它就只能做顾问。很聪明的顾问,但还是顾问。
它要更进一步,得先有现场感。
现场感
这个词比“现实世界智能”朴素一点。
现场感就是:它知道现在发生了什么,知道这件事和哪些对象有关,知道哪些东西不能乱动,也知道自己不确定的时候应该停下来。
一台服务器不是一行指标。
一个房间不是一帧画面。
一个流程不是一张表。
我之前很容易把这个讲成“观察、建模、判断、行动”之类的结构。现在看,这种写法太顺了,顺到像 AI 自己在总结自己。
实际更像这样:先有一个很烦的问题。你反复 SSH,反复看 dashboard,反复翻日志,最后受不了,写一个小工具。工具写着写着,你发现它不该只解决这一次问题。它应该记住状态,应该理解对象,应该知道哪些动作可以做。
Infra Monitor 就是这样长出来的。
所以我相信这个方向,不是因为我看到了什么趋势图。
是因为我自己需要它。
它可能会变成什么
我现在还不想把它叫 AGI。
AGI 这个词太大,一说出来,讨论马上就飘到意识、替代人类、超级智能。那些当然重要,但离我手里的项目有点远。
我现在更关心这些小问题:
一组机器能不能被更安静地看住?
一个空间能不能被模型持续理解,而不是事后翻录像?
一个组织里的对象、权限、风险,能不能被放在一张人和 AI 都看得懂的图里?
这些问题没有那么酷,但更接近我每天会遇到的东西。
如果未来 AI 真的要从聊天窗口走出来,我猜它不是突然拥有身体。
它会先拥有很多眼睛。
很多记录。
很多对象关系。
很多边界。
然后在很小的范围里,开始替人看住一点东西。
这可能就是我说的现实世界智能。
不漂亮。
但我觉得它是真的。