2025-07-24

我为什么相信现实世界智能是下一代 AI 方向

我越来越觉得,下一阶段的 AI 不是只在文本里变聪明,而是开始理解现实世界里的空间、设备、状态、风险和动作。

aireal-world-aisensingsystemsfounder-thesis

我为什么相信现实世界智能是下一代 AI 方向

这个判断不是某天想出来的。

更像是我做一堆东西做烦了以后,慢慢冒出来的。

模型已经很会说话了。这个没什么好争的。它会写,会总结,会帮我拆代码,也会在我脑子一团的时候,把一个问题重新排成几段。

但只要问题不是发生在文本里,它就会突然变笨。

比如一组服务器到底哪里不对。比如一个摄像头画面里发生了什么。比如一条证书流和哪个资产有关。比如医疗质控里那种说不清楚但就是让人不放心的流程问题。

这些问题不是一句 prompt。

它们先是一堆信号。

我说的不是机器人

“现实世界智能”这个词有点容易让人想到机器人。

我倒没那么机器人脑。

我想到的更多是 OmniNVR、Infra Monitor、NetSense CT、DHT 情报、Image Trace、MedTwin Quality、Radar 这些东西。它们名字很散,目录也很散,但它们都在干一件类似的事:把现实里某一小块东西先看清楚。

Infra Monitor 看服务器,不只是看 CPU。

OmniNVR 看空间,不只是录像。

NetSense CT 看证书流,不只是日志。

Radar 看访问行为,不只是 PV。

这些东西都还没有变成一个很完整的系统。很多地方也挺粗糙。我现在如果把它们包装成一张大图,会显得很像融资 PPT。

但我自己知道,它们确实在指向同一个方向。

AI 如果永远等人把问题整理成文字再问,它就只能做顾问。很聪明的顾问,但还是顾问。

它要更进一步,得先有现场感。

现场感

这个词比“现实世界智能”朴素一点。

现场感就是:它知道现在发生了什么,知道这件事和哪些对象有关,知道哪些东西不能乱动,也知道自己不确定的时候应该停下来。

一台服务器不是一行指标。

一个房间不是一帧画面。

一个流程不是一张表。

我之前很容易把这个讲成“观察、建模、判断、行动”之类的结构。现在看,这种写法太顺了,顺到像 AI 自己在总结自己。

实际更像这样:先有一个很烦的问题。你反复 SSH,反复看 dashboard,反复翻日志,最后受不了,写一个小工具。工具写着写着,你发现它不该只解决这一次问题。它应该记住状态,应该理解对象,应该知道哪些动作可以做。

Infra Monitor 就是这样长出来的。

所以我相信这个方向,不是因为我看到了什么趋势图。

是因为我自己需要它。

它可能会变成什么

我现在还不想把它叫 AGI。

AGI 这个词太大,一说出来,讨论马上就飘到意识、替代人类、超级智能。那些当然重要,但离我手里的项目有点远。

我现在更关心这些小问题:

一组机器能不能被更安静地看住?

一个空间能不能被模型持续理解,而不是事后翻录像?

一个组织里的对象、权限、风险,能不能被放在一张人和 AI 都看得懂的图里?

这些问题没有那么酷,但更接近我每天会遇到的东西。

如果未来 AI 真的要从聊天窗口走出来,我猜它不是突然拥有身体。

它会先拥有很多眼睛。

很多记录。

很多对象关系。

很多边界。

然后在很小的范围里,开始替人看住一点东西。

这可能就是我说的现实世界智能。

不漂亮。

但我觉得它是真的。