
允中 发自 凹非寺
Scaling Law在物理寰球失灵了吗?
大模子重塑数字寰球之后,物理AI成为了下一个征程。
但在自动驾驶之后,通用机器东说念主正濒临着一皆前所未有的工程天堑——
确切物理寰球通达、贯穿且强因果拘谨,任务高度千般、交互对象不可穷举、失败成本极高。
行业正达成新共鸣:
Scaling Law照旧灵验,但仅靠堆砌确切数据已波及天花板。
要杀青限制化进化,通用机器东说念主必须在行动前具备“办法、推演并评估物理寰球”的能力。
于是,寰球模子(World Model),以及进一步的环境与动作搭伙建模架构——World-Action Model(WAM),正在成为物理AI的重要基础模范。
行动具身智能界限的代表性玩家,由上海交大系本领“双子星”——何弢博士与廖文龙博士联手掌舵的酷哇科技(Coowa),近期发布了其中枢本领底座——COOWA WAM 2.0寰球模子。
此次升级秀美着机器东说念主开动从“动作复现”转向“运筹帷幄推理”,完成了从师法者向想考者的跃迁。

师法学习的至极:为什么“闭环数据”不够用了?
往常十年,深度学习的得胜主要缔造在“大限制确切数据驱动的自监督学习”之上,GPT系列恰是这一范式的典型代表。
探求词,淌若将这一逻辑迁徙到机器东说念主界限,却不错发现一个窘态的漫衍外(OOD)陷坑。
言语系统的词汇与语法例矩天然开阔,但终究是有限的,新样本大多落在既有的语义流形之内。而物理寰球毫不交流——状态与交互的组合近乎无穷,且动作的恶果无法仅由历史共现阵势揣度。
在这么的系统中,仅依赖确切数据的师法学习存在一个致命的数学劣势:积存症结(Cumulative Error)。
在长序列的多步决策中,眇小的状态预测偏差或动作践诺症结,会跟着时分和环境反馈被不休放大。
这导致系统赶紧偏离西席数据的漫衍,参预模子从未见过的“未知区域”。一朝参预该区域,机器东说念主行为失稳以至横祸性失效便不可幸免。
更由于物理寰球的不可逆性,咱们无法像西席AlphaGo那样在确切寰球中进行无穷次的试错。高质料交互数据汇集成本高、长尾场景(Corner Case)复现难,组成了物理AI的“数据长城”。
因此,通用机器东说念主必须引入反事实推演(Counterfactual Reasoning)能力——即机器东说念主在践诺动作之前,在脑海中预演“淌若我这么作念,寰球会酿成什么样”。

这恰是World-Action Model (WAM) 存在的趣味。
范式重构:从“感知-践诺”到“推演-决策”
传统的机器东说念主系统衔命“感知(Perception)→ 战略(Policy)→ 截止(Control)”的线性链路。
这种瞎想的局限在于,系统无法内在建模动作的潜在恶果,践诺上是一种高维的“条目反射”。

酷哇科技的COOWA WAM 2.0带来的是一种系统级的范式升级,它是一个可学习的神经模拟器,通过搭伙建模以下三大元素,杀青了可推演的决策能力:
寰球状态:可不雅测的环境与对象表征;
动作候选:机器东说念主本身与他体的可能行为;
状态-动作-结尾:统计探求与因果演化。
在这一架构下,机器东说念主不再盲目行动,而是基于对寰球的办法进行“想想实验”。

硬核拆解:COOWA WAM 2.0的四大本领撑执
为了杀青上述能力,COOWA WAM 2.0在工程上构建了四大中枢模块,好意思妙地会通了“快想考(直观)”与“慢想考(推理)”。
1、基于语义的表征学习 (Semantic Representation Learning)
核心壁垒:临床决策依赖经验判断与人文关怀,AI仅能辅助诊断,无法替代医生与患者的情感互动。例如,手术中医生需根据患者实时反应调整方案,术后需通过沟通缓解患者焦虑,这些均需人类特有的共情力与应变能力。
——机器东说念主的视觉皮层
低层的像素信息难以平直用于决策,机器东说念主需模范路画面背后的语义。
该模块哄骗图像-文本对皆(Masking + 对比学习)本领,索要高层语义特征。

它将纷纭复杂的视觉输入,映射为可办法、可筹备的环境表征(Latent Representation)。
这不仅惩办了感知信息过载的问题,更为后续的直观系统和推理系统提供了搭伙、可迁徙的感知基础,杀青了跨任务与跨场景(如从环卫车到东说念主形机器东说念主)的泛化能力。

2、基于视频生成的异日预测 (Video-based World Dynamics Prediction)
——物理寰球的推演沙盒
这是寰球模子的中枢。
该模块通过对环境状态序列建模,学习物理限定、对象交互和场景演化阵势,MILAN SPORTS有点访佛于Sora的视频生成能力,但它更专注于能源学的一致性。
通过自监督预测西席,它能生成异日可能的动态场景,为机器东说念主提供一个零成本的捏造试验场。
在这里,机器东说念主不错前瞻性地评估动不法果,从而回避现实中的风险,极大裁汰了积存症结的影响。
3、直观行动系统 (Intuition-driven Action Generator)
——系统1:快速反映的第一感
在通达环境中,机器东说念主不可对每一个动作都进行耗时漫长的逻辑搜索。
直观行动系统饰演了“系统1”的扮装。

它基于环境的高维表征和师法学习习得的陶冶限定,不依赖迟缓搜索,而是平直哄骗直观模子预测潜在动作结尾,快速并行生成多组动作候选。
这使得机器东说念主即便在面对突发状态时,也能基于陶冶生成合理的搪塞有研究,保证了反映的及时性。

4、VLM宏不雅拘谨 (Vision-Language Model Constraints)
——系统2:因果逻辑的守门员
直观系统天然快,但容易产生幻觉或违背永恒办法。
此时,需要VLM(视觉言语大模子)介入,饰演“系统2”的扮装。
在COOWA WAM 2.0中,VLM不屈直生成底层的贯穿截止信号(因为不够精确),而是承担宏不雅运筹帷幄与因果拘谨。
宏不雅因果拘谨:将任务办法调遣为高层拘谨,谨防低层动作产生危机。
动作筛选与优化:在直观系统生成的候选动作库中,VLM把柄知识和物理逻辑进行“剪枝”和“优选”。
这种“直观生成+VLM拘谨”的互补架构,既保证了机器东说念主动作的快速反应,又确保了决策合适东说念主类意图与物理知识。
从WAM到Robo City,构建物理寰球的“新基建”
COOWA WAM 2.0的出现,秀美着通用机器东说念主正在从“单一妙技模子”走向“通用剖析底座”。
但在酷哇科技他们看来,本领架构的完成度仅仅第一步,买卖系统的鲁棒性才是测验物理AI是否熟习的终极模范。
收成于COOWA WAM 2.0带来的极高泛化能力与低边缘部署成本,酷哇冲破了具身智能界限永恒存在的定制化陷坑和难以限制化魔咒,展望2026年全系机器东说念主委用量将突破10,000台,并在行家50多个城市及地区杀青常态化运营。
更具里程碑趣味的是,酷哇近期秘书其已最初杀后生度EBITDA(息税折旧摊销前利润)回正,解释了其通用机器东说念主已从依靠成本输血的科研原型,转化为具备自我造血能力和买卖细目性的工业级居品。

在这一买卖基石之上,酷哇正在构建一个被称为“Robo City”的异日城市图景。
在酷哇的构想中,异日城市中的数万台异构机器东说念主将由一个个孑然的个体,跃升为通过WAM分享归拢个“寰球剖析”的智能集群,具体包括以下组成部分:
L4级无东说念主小巴(Coobus):在城市微轮回中高效接驳,买通出行的“终末一公里”;
城市管家机器东说念主:穿梭于CBD与公园,化身为流动的智能交互末端,基于东说念主流热力争主动寻找需求,杀青“货找东说念主”的动态买卖闭环;
泛具身做事机器东说念主:在无东说念主商超与园区里面,自主完成货架清点、补货,以及跨楼层的物质垂直流转。
它们共同组成了一套障翳全城的物沉默能体收罗(Physical Agent Network),像水电网通常,成为保管当代城市高效运转的新式基础模范。

万台通用机器东说念主重构现实,WAM在沙盒中推演异日,物理AI才确切迎来了属于它的高光时刻。
酷哇科技,不仅是这套新基建的界说者,更是跑在最前边的破局东说念主。
确凿酷哇~MILAN SPORTS

备案号: