2025-07-24

我为什么相信现实世界智能是下一代 AI 方向

我越来越觉得，下一阶段的 AI 不是只在文本里变聪明，而是开始理解现实世界里的空间、设备、状态、风险和动作。

aireal-world-aisensingsystemsfounder-thesis

我为什么相信现实世界智能是下一代 AI 方向

这个判断不是某天想出来的。

更像是我做一堆东西做烦了以后，慢慢冒出来的。

模型已经很会说话了。这个没什么好争的。它会写，会总结，会帮我拆代码，也会在我脑子一团的时候，把一个问题重新排成几段。

但只要问题不是发生在文本里，它就会突然变笨。

比如一组服务器到底哪里不对。比如一个摄像头画面里发生了什么。比如一条证书流和哪个资产有关。比如医疗质控里那种说不清楚但就是让人不放心的流程问题。

这些问题不是一句 prompt。

它们先是一堆信号。

我说的不是机器人

“现实世界智能”这个词有点容易让人想到机器人。

我倒没那么机器人脑。

我想到的更多是 OmniNVR、Infra Monitor、NetSense CT、DHT 情报、Image Trace、MedTwin Quality、Radar 这些东西。它们名字很散，目录也很散，但它们都在干一件类似的事：把现实里某一小块东西先看清楚。

Infra Monitor 看服务器，不只是看 CPU。

OmniNVR 看空间，不只是录像。

NetSense CT 看证书流，不只是日志。

Radar 看访问行为，不只是 PV。

这些东西都还没有变成一个很完整的系统。很多地方也挺粗糙。我现在如果把它们包装成一张大图，会显得很像融资 PPT。

但我自己知道，它们确实在指向同一个方向。

AI 如果永远等人把问题整理成文字再问，它就只能做顾问。很聪明的顾问，但还是顾问。

它要更进一步，得先有现场感。

现场感

这个词比“现实世界智能”朴素一点。

现场感就是：它知道现在发生了什么，知道这件事和哪些对象有关，知道哪些东西不能乱动，也知道自己不确定的时候应该停下来。

一台服务器不是一行指标。

一个房间不是一帧画面。

一个流程不是一张表。

我之前很容易把这个讲成“观察、建模、判断、行动”之类的结构。现在看，这种写法太顺了，顺到像 AI 自己在总结自己。

实际更像这样：先有一个很烦的问题。你反复 SSH，反复看 dashboard，反复翻日志，最后受不了，写一个小工具。工具写着写着，你发现它不该只解决这一次问题。它应该记住状态，应该理解对象，应该知道哪些动作可以做。

Infra Monitor 就是这样长出来的。

所以我相信这个方向，不是因为我看到了什么趋势图。

是因为我自己需要它。

它可能会变成什么

我现在还不想把它叫 AGI。

AGI 这个词太大，一说出来，讨论马上就飘到意识、替代人类、超级智能。那些当然重要，但离我手里的项目有点远。

我现在更关心这些小问题：

一组机器能不能被更安静地看住？

一个空间能不能被模型持续理解，而不是事后翻录像？

一个组织里的对象、权限、风险，能不能被放在一张人和 AI 都看得懂的图里？

这些问题没有那么酷，但更接近我每天会遇到的东西。

如果未来 AI 真的要从聊天窗口走出来，我猜它不是突然拥有身体。

它会先拥有很多眼睛。

很多记录。

很多对象关系。

很多边界。

然后在很小的范围里，开始替人看住一点东西。

这可能就是我说的现实世界智能。

不漂亮。

但我觉得它是真的。