您的位置:首页 >微软自研图像模型再降价 41%,当纳德拉开始用“毛利率”定义AI模型
发布于2026-04-24 阅读(0)
扫一扫,手机访问

4月15日,微软正式推出了MAI-Image-2-Efficient,这是其旗舰文生图模型MAI-Image-2的一个“经济适用”版本。新模型的定价策略相当直接:每百万输入token收费5美元,每百万输出图像token收费19.5美元。算下来,输出成本比旗舰版的33美元下降了约41%。
性能方面,微软给出的数据颇具吸引力。据称,新模型在NVIDIA H100硬件上运行速度提升了22%,每GPU的吞吐量效率更是提高了4倍。在延迟表现上,它甚至优于谷歌的Gemini 3.1 Flash、Gemini 3.1 Flash Image及Gemini 3 Pro Image三款模型,平均领先幅度达到40%(基于p50中位数基准测试)。
值得注意的是,这是微软AI超级智能团队自去年11月公开亮相以来,模型矩阵中的最新成员。更关键的是,从旗舰模型发布到推出优化变体,整个过程不到一个月,这种“初创公司式”的迭代节奏,在巨头身上并不多见。而这一切,都发生在一个微妙的背景之下:微软与OpenAI那曾经定义了一个时代的合作关系,正悄然出现裂痕。
微软对这两个模型的定位区分得非常清晰。MAI-Image-2-Efficient被定位为“生产线工具”,瞄准的是产品摄影、营销创意、UI样机、品牌资产管道以及实时交互应用这类场景。它的特长是干净利落地处理标题、标签这类短文本,非常适合那些对延迟和预算有严格要求的批处理环境。
那么,什么时候需要请出“精密仪器”呢?当任务涉及最高级别的照片级真实感、复杂的风格化转换(比如动漫或插画),或者需要处理更长、更复杂的图像内嵌文字时,企业客户依然需要依赖MAI-Image-2这款旗舰模型。
这种“高低搭配”的分层策略,在AI行业其实已是常规操作。无论是OpenAI的GPT模型梯队、Anthropic的Haiku-Sonnet-Opus产品线,还是谷歌的Flash-Pro区分,背后的定价逻辑都如出一辙。但在图像生成这个领域,单张图像的成本经济学,往往直接决定了规模化部署的成败。
根据相关报道,新模型已经在Arena.ai(原LMArena)图像生成排行榜上位列第三,排在它前面的是谷歌Gemini 3.1 Flash和OpenAI的GPT Image 1.5。评测者普遍认为,MAI-Image-2在照片真实感方面拥有“真正的优势”,其文字渲染能力也“超出预期地一致”,尤其在处理复杂排版时。在一些直接对比中,MAI-Image-2甚至在图像质量和文字渲染上超越了OpenAI的GPT Image 1.5——尽管在综合排行榜上仍居其后。
不过,原模型也存在一些明显的限制:比如生成间隔有30秒的冷却时间、原生界面每日上限15张、仅支持1:1宽高比、缺乏图生图功能,以及有时会过度屏蔽无害创意提示的内容过滤策略。此次发布的Efficient版本是否继承或放宽了这些限制?微软在公告中并未给出明确说明。
要真正理解这次发布的意义,就不能孤立地看待它。特别是当下,微软与OpenAI之间的关系已经出现了肉眼可见的裂痕。
就在4月12日,OpenAI新任首席营收官Denise Dresser向员工发送了一份内部备忘录。据报道,这份备忘录在批评竞争对手Anthropic的同时,也提到了一个关键点:“我们与Microsoft的合作是我们成功的基础,但它也限制了我们在企业所在的地方与他们相遇的能力,对很多企业来说,那个地方是Bedrock(亚马逊AWS的AI服务平台)。”备忘录还透露,自2月底宣布与亚马逊合作以来,来自客户的入站需求“坦率地说令人震惊”。
其实,裂痕的迹象出现得更早。微软早在2024年7月底的年度报告中,就已经将OpenAI列入了竞争对手名单。而OpenAI这边也没闲着,它正通过CoreWea ve、谷歌和甲骨文来多元化其云基础设施,以减少对微软Azure的依赖。
MAI模型家族,正是微软这一战略脱钩意图最具体的表达。试想,当微软能够以每百万输出token仅19.5美元的成本,用自研模型生成生产级质量的图像时,继续授权OpenAI的图像模型并与之分享收入的商业逻辑,就会发生戏剧性的转变。每一个达到生产质量的MAI模型,都意味着一个项目可能从OpenAI的资产负债表上,被移到微软自己的账下。
此前,在3月17日微软披露的全面重组中,公司将消费者和商业Copilot业务统一至单一领导团队,Jacob Andreou升任Copilot执行副总裁直接向CEO纳德拉汇报。关键在于,主导组建MAI超级智能团队的微软AI CEO Mustafa Suleyman的角色也被重新聚焦。纳德拉在给员工的信中写道,公司正在“加倍投入超级智能使命,用人才和算力构建在评估、成本削减(COGS reduction)和前沿推进方面产生实际产品影响的模型”。
这里提到的“COGS reduction”(销售成本削减)这个企业黑话,直指核心的经济动机:每节省一美元支付给合作伙伴的授权费用,就直接转化为公司的毛利率。换句话说,就是降低每生成一张图所消耗的算力、推理和运营费用。
还有一个维度让此次发布具有深远的战略意义,甚至可能是最重要的一个:AI Agent(智能体)的崛起。
据报道,微软正在测试将类似OpenClaw的功能集成到Microsoft 365 Copilot中,目标是构建能够长时间执行多步骤任务的“常驻”智能体。公司已经推出了Copilot Cowork(在Microsoft 365应用内行动的智能体)、Copilot Tasks(完成多步骤个人生产力任务的智能体)和Agent 365(纳德拉重组备忘录中提及)。预计在今年6月的Build开发者大会上,微软将集中展示这些智能体能力。
在智能体的世界里——AI系统不再仅仅是回答问题,而是能够自主执行复杂的工作流——图像生成就从一个用户手动操作的独立产品,转变为了智能体可以编程调用的基础组件。想象一下,一个负责构建营销活动的企业智能体,它可能需要自动生成数十张产品图片、创建社交媒体素材、制作演示文稿图形,并在无人干预的情况下不断迭代设计概念。
这种工作流的经济学,完全由“按token计费”的定价模式和延迟时间所支配。而这,恰恰是MAI-Image-2-Efficient优化的核心所在。如果微软对Copilot的愿景,涉及在日常大型工作流中例行调用图像生成的智能体,那么这些智能体所需要的图像生成服务,就必须足够快以避免成为流程瓶颈,也必须足够便宜,以确保每天数千次的调用不会击穿成本预算。
所以,4倍的效率提升和41%的价格削减,绝不仅仅是漂亮的营销数字。它们实际上是微软押注公司未来于智能体战略的、硬性的架构要求。
当然,此次发布仍留下了一些关键问题有待解答。
微软没有披露MAI-Image-2-Efficient是否解决了评测者在原模型中指出的宽高比限制和激进的内容过滤问题。公司也没有说明,在复杂提示下,这种速度与质量的权衡是否会导致可见的图像质量下降——毕竟在公告中,“生产就绪质量”和“旗舰质量”这两个词被互换使用,但任何类型的模型蒸馏通常都伴随着某种程度的质量妥协。
此外,MAI Playground目前仅在美国等选定市场可用,欧盟的可用性被标记为“即将推出”。与Copilot的集成工作仍在进行中,尚未完成。而通过Foundry平台提供的企业API虽已上线,但仍处于早期部署阶段。
尽管如此,轨迹已经明确无误。在MAI超级智能团队宣布成立后不到五个月的时间里,微软已经推出了一个旗舰图像模型、三个其他基础模型,以及现在这个成本优化的生产变体。而这一切,都是在重组整个Copilot组织、应对与最重要AI合作伙伴的紧张关系、并为可能重新定义企业生产力的智能体功能奠定基础的同时完成的。
对于这家在生成式AI时代的前两年,主要扮演他人技术“转售商”角色的公司而言,微软现在正在做一些它很久未在AI领域做过的事:按照自己的时间表、以自己的价格、交付自己的技术成果——并挑战整个市场跟上它的步伐。
(本文首发钛媒体APP,作者 | 硅谷Tech_news,编辑 | 秦聪慧)
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
正版软件
正版软件
正版软件
正版软件
正版软件
1
2
3
4
5
6
7
8
9