2025-08-14

为什么多模态传感是 AI 进入现实世界的入口

多模态不是模型多会看图听声音,而是现实里的信号开始被持续观察、关联和使用。没有这一层,AI 很难真的进入现场。

aimultimodalsensingomnisensereal-world-ai

为什么多模态传感是 AI 进入现实世界的入口

我以前也会把“多模态”理解成模型功能。

能看图,能听音频,能读视频。听起来就是下一代输入框。

但我自己做 OmniNVR 之后,对这个词的感觉变了。

一个摄像头在那里,不是为了给模型上传一张图片。它一直在看。问题是以前大部分系统只是把它录下来,最多做一点移动检测。人要看的时候再去翻。

这很浪费。

不是浪费存储,是浪费现场。

现场不是一段文字

房间不会给你写日报。

服务器不会说“我今天有点不舒服”。

网络空间也不会把自己的变化整理成一个产品经理能读懂的文档。

它们只会留下信号。

视频、声音、指标、日志、证书流、DHT、访问行为、医学影像。每一种信号都不完整,每一种都有噪声。人靠经验把它们拼起来。AI 如果想进现场,也得先学会接这些东西。

所以我现在说多模态,不是说“模型支持更多文件格式”。

而是说现实世界的入口终于开始变多了。

OmniNVR 让我意识到这点

OmniNVR 表面上是 NVR。

但我做它的时候,老是会想另一个问题:如果摄像头不只是录像,它能不能成为一个空间的观察点?

这个问题比“视频 AI 分析”更吸引我。

因为视频分析听起来像功能,空间观察听起来像系统。

比如一个区域长期没人。一个设备状态不对。某个动作和日常流程不一致。画面里不只是像素,还有时间、地点、规则、对象和人的意图。

当然现在还没那么完整。

很多东西还只是积木。

OmniSense 也更像积木库:图像、视频、传感、媒体 AI,以后可能还有更多乱七八糟的入口。它不应该只服务一个 NVR 产品。它应该变成我之后组现实世界 AI 系统时能反复拿出来用的东西。

网络也有“现场”

这里有个容易被忽略的点。

现实世界不只等于摄像头。

网络空间也有现场。

Infra Monitor 看服务器状态。NetSense CT 看证书透明日志。DHT 情报看另一种网络活动。Honeynet 看攻击流量。Portly、Local Observer 这些东西也像探针。

一张证书突然出现,一个端口开了,一个进程从奇怪路径跑起来,一个容器权限太大。

这些都不是传统意义上的“物理空间”,但它们很现实。

它们会影响系统,会带来风险,也会留下痕迹。

AI 如果只等我把问题写成一句话,它永远慢半拍。

先看见,不急着管

我现在比较警惕“AI Agent 管理现实世界”这种说法。

一上来就管理,太快。

现实信号很脏。摄像头会误判,日志会缺,指标会抖,医疗数据和安全数据还有很强的边界。你不能因为模型看起来会推理,就让它直接动手。

所以多模态传感对我来说更像第一层。

先看见。

看久一点。

看出对象和关系。

再说管理。

这也是为什么我现在手里这些项目看起来散,但我不太想急着把它们收成一个平台。OmniNVR、Infra Monitor、NetSense CT、DHT、Image Trace、MedTwin Quality、Radar,各自先把一类信号看清楚。

后面能不能连起来,等它们真的长稳再说。

入口先做好。

现场感才有可能出现。