商城首页欢迎来到中国正版软件门户

您的位置:首页 >被市场低估的,不止Google ?

被市场低估的,不止Google ?

  发布于2026-05-20 阅读(0)

扫一扫,手机访问

在谷歌I/O大会正式拉开帷幕前,行业先行迎来了一记重拳:Gemini Omni的发布。这并非一次简单的功能更新,而是谷歌在AI架构上的一次根本性转向。

被市场低估的,不止Google ?

具体来看,Omni这次带来了两个堪称碘伏性的能力。

第一个突破,在于对物理世界的深度理解。它不再仅仅是“生成”内容,而是真正“理解”任务背后的复杂关系。谷歌展示了一个例子:用户只需输入一条指令——“一位教授在传统黑板上写出三角恒等式的数学证明,同时用语言解释他当前正在推导的步骤。”Omni无需多轮对话或分步指挥,一次性就协调好了空间关系(手如何持粉笔、公式写在何处)、文字内容(公式正确性)和推理逻辑(推导步骤与同步解说)。这标志着AI开始真正理解并模拟物理世界中的关联与因果。

第二个突破,是极致的入口统一。写文章、生成图片、剪辑视频、记忆上下文、执行复杂任务……过去需要用户在四五个不同工具间来回切换的流程,如今被收拢到同一个对话框内完成。Omni将谷歌此前分散的文本、图像、视频、音频能力整合进一个系统,打造了一个“全能型”生产力入口。这背后传递出一个清晰的信号:未来的AI智能体若想完成真实世界中的任务,就必须具备看、听、说、画、剪的全模态能力。只会处理文字或代码的智能体,其价值注定是有限的。

Coding不是增长的全部

当我们将视线投向AI智能体在实际业务中的落地,会发现一些有趣的现象。一位国内头部大厂的技术负责人曾分享他的观察:在推行AI编程工具后,代码交付速度确实大幅提升,但随之而来的是更随意、更模糊的试错性需求大量涌入系统。

类似的情况也出现在Uber,其2026年全年的AI工具预算,在前四个月就已耗尽,这让其CFO也感到棘手。问题并非出在AI编程本身,而是AI的价值早已溢出单纯的“写代码”环节,渗透到了需求分析、测试、运维乃至预算管理等全流程。正因如此,原本为编码环节准备的预算,才会被迅速消耗。

如果企业只盯着编码环节的降本增效,而忽略了需求质量的前置管理和预算的整体治理,就很容易陷入“越快越乱”的窘境。这也意味着,尽管Anthropic引领的AI编程叙事依然火热,但面向企业内部生产力(To E)市场的增长天花板已经隐约可见,市场预期也基本消化完毕。

是时候重新审视了:AI的故事,远不止于写代码。

再看OpenAI,其近期重心似乎更偏向于冲刺上市,内部产品线经历着剧烈的打碎与重组。这种动荡使得它在短期内,难以将“全模态实时交互”与“深度慢思考”融合到一个统一架构中,两条技术路线最终可能被迫各自为战。

于是,一个更根本的问题浮出水面:我们当下讨论的AI智能体,究竟还缺什么?答案或许正是那个能同时处理“看、听、说、写、画”的统一系统。试想,你现在要制作一个带字幕和背景音乐的短视频,流程很可能是:先用文本模型写脚本,切换到图像模型生成封面,再打开视频工具剪辑,最后寻找合适的背景音乐。四五个工具来回倒腾,任何一个环节出错,都可能需要推倒重来。

因此,无论是面向企业、消费者、政府还是内部员工,底层的需求都是一致的:一套能够理解与生成文本、图像、视频、音频的模型系统。因为真实世界的信息从来不是按模态分隔的,任务天然就是多模态混合的。只有全模态智能体,才能真正跨越场景、适配角色、解决问题。

谷歌此前的架构是分散的:Veo负责视频,Gemini专注文本,Imagen掌管图像。Omni的发布,正式宣告其转向统一的多模态架构,在一个系统内完成所有生成与理解任务。这个转向本身,就是对“全模态是否重要”这一问题最直接的回答。

而在国内独立的AI公司中,有一家同样在文本与多模态各个领域都展现出领先实力的纯粹模型公司(pu re-play),值得关注:Minimax。

Pure Play 模型公司的魅力在哪里?

当然,全模态和技术路线讨论得再热闹,终究要回归商业本质。一个绕不开的问题是:不赚钱的AI,都是“耍流氓”。市场一直在等待一个明确的信号:真金白银的回报,到底何时到来?

阿里财报中的一个数字颇具参考价值:其模型即服务(MaaS)业务的年度经常性收入(ARR)已超过80亿元软妹币,预计到6月将达到100亿,2026年底目标为300亿。这意味着在半年时间内,其ARR增长了3.75倍。AI的回报周期,似乎真的到了,而不仅仅是“即将到来”。

但这背后存在一个反差。阿里能实现如此增速,很大程度上依赖于其现成的家底:成熟的销售网络、深厚的客户关系、庞大的云基础设施。而AI原生公司没有这些存量优势,每一分钱收入都需要依靠模型本身的吸引力去硬生生地争取。

反过来想,如果阿里依靠存量客户升级就能实现半年3.75倍的增长,那么一个纯粹依靠模型差异化来获取客户的公司,在同样的市场浪潮下,其增长弹性又该有多大?

要回答这个问题,得先看真实的需求。Token消费正在实打实地增长。以Minimax为例,其旗下M2系列的Token使用量,在2026年2月比2025年12月增长了6倍,且每分钟Token处理量(TPM)保持着每周10%到20%的环比增速。

摩根士丹利的研报显示,Minimax的ARR在2026年2月已超过1.5亿美元,预计2026年底有望达到10亿美元,与国际竞争对手处于同一量级。

再看具体的经济模型。摩根士丹利在研报中指出了一个关键差异:Minimax在单台8xH800推理服务器上,可实现每分钟约1美元的营收,而对应的运行成本不到0.3美元。其营收规模达到行业平均水平的2倍,单位经济效益大幅领先。这种“做得更便宜,反而赚得更健康”的模式,印证了一个更本质的商业逻辑:增长不是靠烧钱,而是靠效率赢得市场。

目前,Minimax的毛利率已从2024年的12.2%提升至2025年的25.4%,同时营销费用同比下降了40.3%。这表明用户和收入的增长,不再依赖于大规模的广告投放驱动,而是工具本身提供的真实价值引发了自发性的使用与裂变。

一个有趣的案例是,被称为“龙虾之父”的开发者Peter Steinberger,曾晒出自己一个月的API Token账单,高达130万美元,总Token消耗量达6030亿,请求量760万。这引发了行业讨论:如此高昂的成本,普通人和机构如何承受?

所以,摩根士丹利也对Minimax的ARR和毛利率持比同类上市公司更乐观的态度,理由很直接:其在基础设施上的优势,最终会转化为更领先的用户体验,从而驱动超出预期的Token消费。

摩根大通则提到,Minimax在ToB和ToC市场“双管齐下”的策略,加之其从创立初期就布局的全球化视野,为公司带来了同行中难得的经济灵活性。大多数AI创业公司往往只专注一端:要么做C端应用(用户增长快但付费意愿低),要么做B端API(收入稳定但获客慢)。Minimax同时跑通两条路径,意味着其增长天花板比同行高出许多。

讲完基本面,再看催化剂。谷歌Omni的发布,让“全模态”这个方向被市场重新审视和定价,而Minimax是国内最直接的映射标的。此外,Minimax即将发布的M3系列,预计将大幅提升多模态理解能力;其文本模型也有望与国内同行一起,进入第一梯队。

当一个市场从比拼“谁有大流量”转向比拼“谁有更好的模型”时,纯粹模型公司的增长弹性才刚刚开始释放。这种“行业趋势催化”与“公司自身催化”同时出现的窗口期,其实并不常见。

为什么市场要给“全模态”重新定价?

过去一年,谷歌母公司Alphabet的股价大幅飙升了140%。Plexo Capital创始管理合伙人Lo Toney曾分析认为,“谷歌可能是目前最具备AI大规模商业变&现潜力的公司,因为它几乎扼守着技术栈每一个核心生态位。”Omni的发布,很可能让“全模态”的价值被市场再次重估。

如果投资者想寻找下一个具备类似潜力的标的,那么同样押注全模态、致力于统一架构、但没有庞大云业务和广告收入来分摊成本的纯粹模型公司,环顾全球,Minimax可能是少数选择之一。

一个容易被忽略的细节是,Minimax从创立之初就坚持文本与多模态并行发展的路线,而非先做文本模型,再对外部“拼接”其他模态能力。这一思路,与谷歌Omni不谋而合。

这意味着,其大语言模型预训练、视觉模型、视频生成等环节,共享大部分底层能力。一份研发投入,能同时提升文本和多模态两方面的实力。这种效率优势在每一代模型迭代中会形成累积效应,差距可能越拉越大。这也是市场对其即将发布的下一代视频模型抱有期待的原因,它或许将开启国内原生多模态能力的新空间。

瑞银的分析还指出,市场可能忽视了一个关键点:Minimax的强大不只在于模型本身,其“工程层”能力才是真正的护城河。模型是引擎,工程层则是方向盘和刹车系统;光有强大的引擎未必能反赌,还需要精湛的驾驭技术。

瑞银认为,Minimax正以“模型+工程层”双轮驱动,同时推进两个方向:创意场景(如视频制作、绘画)和办公场景(如文档处理、任务自动化)。在视频领域,其新一代模型有望在视频理解能力上拉开差距,并通过更精巧的工程层设计降低使用门槛,让普通用户也能轻松上手。在文本领域,下一代模型将重点提升AI智能体自主规划、执行多步骤任务的能力,再配合工程层创新,将AI的应用范围从写代码扩展到自动处理文档、安排日程、跨工具协作等办公场景。

中信建投在这一观点上做了补充:多模态训练所产生的视觉理解能力,可以反哺文本模型,从而提升模型的整体智能上限。

当然,这些都还只是过程。真正的机会在于,全模态能力将一步步渗透进日常生活的各个场景,变成一种随时可调用的基础智能资源。想象一下,未来的AI智能体可以同时看懂你的设计草图、听懂语音指令、生成带字幕的演示视频并配上背景音乐,全部在一个系统内无缝完成,无需在多个工具间切换。这种体验所带来的市场爆发量级,与现在单纯比较代码生成或聊天能力,完全不在一个维度。

写在最后

如果说ChatGPT的出现是语言智能的“启蒙时刻”,Sora的横空出世是视觉智能的“觉醒时刻”,那么Gemini Omni所指向的,则是全模态智能的“寒武纪大爆发”时刻——各种能力不再各自为战,而是开始交织、融合、涌现,真正逼近真实世界的复杂性与丰富性。

今年谷歌I/O大会的热度空前,或许不仅仅是因为Gemini Omni的亮相,更在于业界期待看到,谷歌如何将这种模型能力转化为搜索、广告、购物和云业务的实际收入增长。这或许预示着,全模态AI的增长故事,已经走到了兑现的前夜。

本文转载于:https://www.techweb.com.cn/viewpoint/2026-05-20/2975696.shtml 如有侵犯,请联系zhengruancom@outlook.com删除。
免责声明:正软商城发布此文仅为传递信息,不代表正软商城认同其观点或证实其描述。

热门关注