冰箱彩电大沙发之后，理想靠什么赢下一个十年？

2026-6-22 23:01| 发布者: yyy136| 查看: 0

2022年L9发布会，理想汽车董事长兼CEO李想站上舞台，把车载冰箱、全景大屏、零重力沙发摆在所有人面前，“冰箱彩电大沙发”一夜成为理想的代名词。彼时舆论一半赞叹它戳中家庭出行痛点，一半嘲讽理想只会堆砌家电，没有硬核底层技术。四年转瞬而过，如今几乎所有新能源车企都配齐冰箱、后排屏、舒适座椅，曾经独一份的差异化卖点，沦为家庭SUV行业标配。同质化竞争愈演愈烈，价格战持续挤压利润，所有人都在追问同一个问题：当别人抄走所有座舱配置，理想下一个十年，凭什么守住优势、拉开别人无法复刻的护城河？答案藏在2026年6月15日理想在北京研发总部召开的Livis Day里。 Livis Day是理想汽车今年以来第一次线下举行的发布会，也是理想历史上第一次软件与具身智能的专属发布会。这次发布会不发布新车，也不堆砌配置，复盘整场活动，只讲一件事：理想要用具身智能，重启智能汽车的新十年。从车载操作系统立项，到马赫芯片、马赫 VLA 基座模型依次启动，再到今年 Livis 具身智能体系全面量产落地，外界才意识到：理想成为全球领先的具身智能企业这一大战略方向，不只是说说而已。 “过去十年，我们创造了一个移动的家。第二个十年，我们会给车和家，赋予生命。”李想表示。一、重新定义真正的具身智能汽车 “今天的智能手机和智能汽车，都不智能。”李想在发布会上表示。他指出，过去十几年，行业公认的“智能汽车”普遍遵循三要素：软件定义硬件、联网且实时在线、系统可以持续升级。智能汽车是这样，智能手机也是这样。但这三要素到现在已经不够用了。李想称，今天的智能手机和智能汽车虽然都挂着“智能”二字，本质上仍然是功能驱动，并非有生命力的智能体。判断一辆车是否真正智能，李想给出三个维度：安全、能力、效率。第一是安全，传统汽车是“免责优先”，具身智能汽车必须“以保护人类安全为核心，比人类更安全。”第二是能力，传统汽车局限于“特定功能、特定场景”，具身智能要全面学习人类技能并独立完成任务。第三是效率，传统汽车是“人机共驾”，具身智能必须比人类效率更高。至此，理想汽车将具身智能汽车定义为“四位一体”：首先，它得是一辆电动车。具身智能汽车要服务真实世界，需要有身体，能移动，能达到目的地。其次，它是一位职业司机。理解道路、风险、交通规则，能完全可靠完成出行以及生活任务。同时，它又是一台AI计算机。比旗舰智能手机和电脑有更强的AI算力，更大的内存，内存和显存一体化，专为大模型设计。最后，它还要是一个生活助手。不需要研究怎么操作各种软件，只需要把任务告诉它，它来帮你完成。李想强调，“这不是四个产品，这应该是一个产品”。过去新势力车企做的事，大多是把东西分别做好：智驾团队做智驾、座舱团队做座舱、底盘团队做底盘、车机系统做应用等。理想这次要做的，是让这些同时长在一个底层架构上。 “在iPhone出现以前，没人知道自己需要触摸的屏幕。在特斯拉Model S出现之前，没人相信电动车这么让人心动。所有没有被展示出来的可能性，往往会被误以为是不存在的需求。”李想在发布会上补充。把这套定义落到工程上，意味着理想汽车至少要重做三件底层的事：一颗自研芯片、一套自研操作系统、一组自研模型。二、三大具身模型：马赫Mind-Pro、马赫Mind-Edge、马赫VLA 具身智能的大脑，被理想汽车拆成了两支：语言智能负责“听得懂任务”，机器智能负责“开得到目的地”——前者由两个自研大模型马赫Mind-Pro和马赫Mind-Edge承担，后者由自研马赫VLA承担。两支共享同一套底层认知，共同构成一个完整的大脑。先看语言智能。这一次，理想正式推出两个全新模型——马赫Mind-Pro与马赫Mind-Edge。理想汽车基座模型负责人詹锟介绍：马赫Mind-Pro走云端，定位是Agent智能体模型；马赫Mind-Edge走端侧，主打端侧原生具身智能体。詹锟在发布会上透露，目前马赫Mind-Pro依托Livis Agent全场景体系，通过Token压缩技术，任务完成率零衰减的前提下，Token平均消耗降低38%，工具调用冗余轮次减少47%；TPS峰值达到208 Token/s，推理效率是主流Agent模型的2倍以上。马赫Mind-Edge则采用多模态流式时序建模，能够连续理解动态的物理世界，具备因果推理和自主决策能力。再加上大量车载专属的行为特化训练，让模型摆脱传统AI“只回答不行动”的模式，它可以直接输出动作，实时调用车辆硬件。“这不是云端模型的阉割版本，而是从底层就为车载场景原生打造的模型。”詹锟强调。云端马赫Mind-Pro负责复杂Agent任务调度，端侧马赫Mind-Edge负责实时人车交互。两个模型，共同构成了具身智能的语言智能层。在语言智能之外，理想在机器智能上也有自己的模型——马赫VLA，这也是原来MindVLA的升级。以效率为例，普通人从发现危险到踩下刹车的反应时间是0.45秒，而全新马赫VLA系统的反应耗时是0.28秒。马赫 VLA 这一代的能力从哪里来？詹锟把它归纳成三个变量的同时跃升：“这背后是数据、算力、模型规模同时暴增下，Scaling Law带来的能力涌现。” 数据规模方面，模仿学习数据量增加50%，强化学习数据量增加15倍，训练算力增加5倍。模型规模方面，行泊一体模型彻底统一，参数量提升10倍，每秒Token计算量提升15倍。但比涌现更关键的，是架构层的重构。理想直接把感知、预测、规划三个模块统一成「原生多模态MoE大模型」。“过去模块化的模型结构有一个致命缺陷，感知、预测、规划三个模块各玩各的，就像一家公司，市场部说这事能干，研发说我压根没收到消息，财务说我还不知道有这个项目。功能都没错，但整体意图完全不一致。” 围绕这个统一的大模型，理想还做了两件配套的事：一件是马赫 World Model，一个能模拟真实物理世界的世界模型，给马赫 VLA 提供训练所需的虚拟环境；另一件是 RL Infra，强化学习的训练基础设施，让 VLA 能在世界模型里持续试错、迭代。如此一来，马赫 VLA、马赫 World Model、RL Infra 三位一体，构成一套完整的具身智能模型训练体系。“看见、理解、思考、行动，从一开始就在同一个框架里彻底对齐。我们从第一天起就是为具身智能而生。”詹锟说。三、3D ViT：用纯视觉达到激光雷达级别的空间理解新架构只是基础，具身智能要真正“看懂”世界，还需要选择相匹配的视觉方案。涉及路线选择，业界有的在卷激光雷达，有的在卷视觉方案。 “行业都在疯狂卷激光雷达的线数。128线、256线、512线，越卷越离谱。但激光雷达的线数再高，也不能知道红绿灯现在是什么颜色，读不懂路牌，更看不懂保安手势。激光雷达只能理解世界的骨架，根本不能理解这个世界。”詹锟在发布会上表示。对此，理想提出了3D ViT视觉感知模型，即通过一个单目摄像头还原出3D空间数据，而不仅仅是2D平面数据，以增强模型对于物理世界的位置、深度的准确理解。 3D结构对人来说很直观，但对模型来说并不直观。模型要理解3D结构，才能做出好的动作决策，3D ViT如何才能做到？詹锟在群访上进行了解释。他表示，人眼有两个非常重要的特性：第一是实时双目，天然就自带3D结构；第二是前额叶很强，能抽取非常高维的表征信息。对于机器来说，做深度学习本质上是在做表征学习，即把信息映射到高维空间，即使它没有办法直观描述该特征，但它需要把下游包含的所有信息都呈现出来。 “人的双眼时刻去观察3D物理空间以后，大脑中整个物理空间会有很强烈的3D感。但是摄像头，特别是单目摄像头，天然没有3D感。人眼如果遮住一只，当你习惯了双眼训练以后，单目也能看到3D结构，因为前额叶已经把这种能力固化下来了。” 同理，机器训练也是这个思路：用很高维的3D空间数据去训练它。这样一来，即便摄像头在移动中，也能构建出三维空间。通过这种方式，3D ViT就可以深刻理解3D环境。之所以要在前融合里加入更多的视觉数据，是因为帧率。模型帧率的提升对系统体验有明显的改善。但激光雷达的帧率因为机械结构原因有物理限制，只能达到10-15赫兹。“如果要做更高的输入频率，只能靠视觉。更高的输入频率对细节反应有很大的提升，我们必须拉高上限，基于纯视觉把输入上限拉高。”詹锟补充。 “3D ViT在我们看来是真正能把物理空间理解清楚的模型，不管是对自动驾驶还是具身智能，都有重要的突破意义。因为它能让车、机器人在不依赖激光雷达的情况下，看得更清、更远。”一位理想汽车的研发人员告诉笔者。这并不意味着理想就会在车上去掉激光雷达。“LiDAR有一个很大的优势，即能对L3和L4场景下的安全兜底。毕竟纯视觉输入信息有限，而LiDAR在极端情况下可以帮你解决很多问题。”詹锟补充道。基于这样的判断，詹锟明确今年下半年最重要的两件事是：第一，用纯视觉提高帧率，把芯片性能发挥到更大，反应速度大幅提升。第二，LiDAR会承担很重要的数据采集环节，它对L3、L4各种极端场景很有帮助，我们会持续提升安全，安全不能妥协。四、自研芯片：跳过路径依赖，才能获得更大创新所有的车端模型的高效运行，都需要一颗强大算力的芯片。 2022年，理想开始自研车端的AI芯片，今年在L9 Livis上首发搭载。马赫M100芯片，5nm、单颗算力达1280 TOPS，是全球首个动态数据流架构的车规级芯片。全球没有第二家车企和理想采用同样的动态数据流架构。传统芯片是指令驱动，采用的是冯诺依曼架构，把计算抽象成顺序的指令，这样可以一步步做推理。就像机器在完成清单一样从清单第一项开始，做完一项之后再做下一项，顺序严格不能乱。这种方式的问题是，清单本身要写、要管、要排序，芯片很大一部分晶体管不是在算东西，是在管理这张清单。算AI模型这种海量并行的任务时，管理成本越来越高，效率上不去。而数据流是大规模的并发，多条数据流同时在进行，它不仅在时间上往前推，在空间上也要布局，即需要对时间空间进行编译。谢炎说，AI计算其实根本不需要这张清单。“AI计算天然是并行的，数据是确定的、关系是清晰的、流动路径是固定的。”也就是说，AI 模型在做什么、下一步要处理什么数据、这些数据要流向哪个计算单元，在模型设计的时候就已经写好了。既然路径是固定的，就不需要一个中央调度员去现场指挥。所以理想汽车做了一件颠覆传统的事：把那张待办清单和清单管理员全砍掉，让数据自己驱动计算的发生。数据流到哪里，计算就在哪里发生。“当需要发生更大创新的时候，得先打破原来的边界，而不是follow既定的路线。”谢炎在群访上强调。 “马赫M100的能力远不止于智能驾驶，它今天已经跑通了车上所有的智能化场景。它能运行语言大模型，它能支撑Agent，它将驱动具身智能，它还会支持更多我们今天还没有想到的AI场景。”谢炎说。这套架构也拿到了一个学术层面的背书。谢炎在台上宣布，今年马赫 M100架构的论文被ISCA 2026工业分区收录。同期入选的是谷歌、美光、Meta、安培、MangoBoost。“理想汽车是汽车行业中第一家，历史上第一家在ISCA工业分区获得论文录取的企业。” 谢炎特意申明：“我们入选 ISCA 从来不是因为造了一颗芯片，是因为提出并实践了一种创新的架构思路。”马赫 M100 架构团队将于6月30日在ISCA 2026会议现场进行主题分享。外界频繁质疑自研芯片投入巨大、回本周期漫长，谢炎算了一笔独特的成本账：车规芯片不能只看出货颗数，还要看晶圆总面积。一台理想Livis车型搭载两颗马赫M100，芯片总面积等同于8颗高端手机SOC；依托近些年全系年销几十万台整车规模，晶圆采购成本可以充分摊薄，长期相比外购方案具备显著成本优势，同时彻底摆脱供应链交付约束，掌握自主权。更关键的是芯片与模型的深度耦合。市面上绝大多数车企芯片与模型分属两套体系，模型只能适配通用算力，性能释放不足五成；马赫M100配套自研时空双维度数据流编译器，专为马赫VLA大模型优化，能够充分释放芯片全部算力，这是任何外购芯片方案无法实现的协同优势。下半年理想还会持续迭代编译器，持续挖掘芯片潜在性能，逐步缩小与特斯拉FSD的体验差距。结语当前新能源行业已经告别增量蓝海，进入存量淘汰赛，单纯硬件配置、单点智驾功能都无法支撑长期品牌优势，行业终局的竞争逻辑彻底改写：过去比拼座椅、屏幕、冰箱，未来则比拼完整的具身智能体系——芯片算力底座、多模态大模型、全域数据闭环、整车软硬协同等能力。 “冰箱彩电大沙发”帮助理想拿下第一个十年，完成家庭用户心智占领与销量底盘积累；而五年长线布局的马赫芯片、VLA基座模型、Livis具身智能体系，是支撑理想第二个十年增长的核心引擎。座舱舒适体验不会被抛弃，而是成为具身智能体系之上的用户加分项——车辆不仅拥有舒适的移动空间，更拥有能自主思考、自主处理复杂出行任务的AI大脑。李想在发布会结尾给出判断：过去智能车只是功能载体，真正的具身智能汽车会拥有“生命感”——主动保护车主安全、独立完成复杂任务、出行效率超越人类驾驶员。当竞品还在迭代屏幕尺寸、冰箱功率时，理想已经把战场拉升到算力架构、多模态AI、整车全域协同的更高维度。五年隐忍投入，四年芯片攻坚，三年大模型打磨，如今Livis体系量产落地，理想终于跳出配置的红海。上半场靠极致的产品打动千万家庭，下半场靠全栈自研的具身智能筑牢无人能复制的产品技术护城河。冰箱彩电大沙发是起点，不是终点。属于理想的下一个十年，胜负早已写在五年前那场漫长的底层技术押注里。

文章来源于网络，若侵犯了您的合法权益，请来信通知我们，我们会及时删除，给您带来的不便，我们深表歉意。

冰箱彩电大沙发之后，理想靠什么赢下一个十年？

相关分类