您的位置:首页 >斯坦福2026AI指数报告发布:5张图看懂AI正在发生什么
发布于2026-04-24 阅读(0)
扫一扫,手机访问

(来源:麻省理工科技评论)
当下的AI新闻,简直像一场信息轰炸。这边厢,AI被捧为新时代的“淘金热”;那边厢,又有人警告这不过是场经济泡沫。一会儿说AI要抢走所有人的饭碗,一会儿又发现它连个简单的钟表都看不懂。众声喧哗,真相究竟如何?
好在,斯坦福大学以人为本人工智能研究所(HAI)每年一度的“AI成绩单”如期而至,为我们拨开迷雾,提供了一份基于数据的冷静观察。这份报告揭示了一个核心矛盾:AI技术本身在狂奔,而我们的社会管理、评估体系乃至就业市场,却还在手忙脚乱地“找鞋穿”。
尽管有观点认为AI发展已触及天花板,但数据告诉我们,顶尖模型的能力仍在持续攀升。更惊人的是,人类拥抱AI的速度,甚至超过了当年接受个人电脑和互联网。AI公司创造收入的速度,打破了以往任何一轮技术浪潮的纪录,与之相伴的,是它们在数据中心和芯片上砸下的数千亿美元投资。然而,用来衡量AI的标尺、用来约束AI的规则,却远远落在了后面。这种脱节,构成了当下AI发展的主旋律。
当然,速度是有代价的。全球AI数据中心的耗电量已攀升至29.6吉瓦,这个数字足以在用电高峰时支撑整个纽约州的运转。仅以OpenAI的GPT-4o为例,其每年的耗水量,就可能超过1200万人的饮用水需求。这些冰冷的数字背后,是一项演进速度远超我们管理能力的技术现实。

在模型性能的赛道上,中美两国正呈现出并驾齐驱的态势。通过分析用户驱动的AI模型排行榜Arena数据可以发现,2024年初,OpenAI凭借ChatGPT还保持着明显领先。但随着Google和Anthropic等玩家持续发力,这一差距在2024年内逐渐缩小。到了2025年2月,中国公司DeepSeek推出的R1模型,一度追平了当时美国最顶尖的ChatGPT。
截至2026年3月的最新排名显示,Anthropic位居榜首,紧随其后的是xAI、Google和OpenAI。而DeepSeek、阿里巴巴等中国模型的表现同样不容小觑。可以说,顶尖AI模型之间的性能差距已被压缩到“发丝之细”,竞争焦点正从单纯的性能比拼,转向成本、可靠性和实际可用性等更深层次的维度。

(来源:麻省理工科技评论)
报告进一步指出,中美两国的AI优势实则各有侧重。美国在模型能力、资本聚集和数据中心数量上占据优势,其拥有的数据中心数量估计约5427个,是其他任何国家的十倍以上。而中国则在AI研究论文、专利申请和机器人领域表现突出。
随着竞争进入白热化,一个值得警惕的趋势是:OpenAI、Anthropic和Google等头部公司已不再公开模型的训练代码、参数规模和数据集细节。这种日益增长的“黑箱”化,让独立安全研究变得举步维艰。正如南加州大学计算机科学家、报告合著者约兰达·吉尔(Yolanda Gil)所言:“关于如何预测模型的行为,我们还有很多不清楚的地方。”这种不透明性,无疑为AI的安全治理蒙上了一层阴影。

尽管“平台期”的论调不时出现,但AI模型的能力边界仍在以惊人的速度拓展。按照某些衡量标准,它们在旨在测试博士级科学、数学和语言理解能力的考试上,已经达到甚至超越了人类专家的水平。例如,在评估AI编程能力的SWE-bench Verified基准测试中,顶尖模型的成绩从2024年的约60%,一跃升至2025年的近100%。更令人印象深刻的是,2025年,已有AI系统能够独立完成天气预报这样的复杂任务。
“这项技术持续在进步,完全没有进入平台期,我被震惊到了。”吉尔教授的感叹,或许代表了业界许多人的心声。

(来源:麻省理工科技评论)
然而,AI的能力图谱呈现出明显的“参差不齐”。由于模型主要通过处理海量文本来学习,而非亲历物理世界,它们在需要具身交互和物理常识的领域仍然举步维艰。机器人技术仍处于起步阶段,目前只能完成约12%的家务任务。自动驾驶领域发展稍快,Waymo已在美国五个城市运营,百度的Apollo Go也在中国多个城市提供接送服务。AI向法律、金融等专业领域的渗透也在进行,但尚未出现能主导这些领域的成熟模型。

在为模型的进步喝彩时,我们必须对衡量进步的工具本身保持清醒。斯坦福报告明确指出,用来追踪AI进展的基准测试,正被模型飞速突破,已然跟不上技术发展的节奏。
问题出在几个方面:其一,部分基准测试本身设计不够严谨。例如,一个流行的数学能力基准测试,其错误率竟高达42%。其二,基准测试容易被“针对性训练”或“数据泄露”所污染——当模型直接在基准测试的数据上接受了训练,它可能学会“刷分”而非真正掌握能力。更重要的是,AI在现实世界中的使用方式,与其在实验室被测试的方式往往大相径庭,导致漂亮的基准测试成绩无法有效转化为实际应用表现。而对于AI智能体和机器人这类需要复杂交互的技术,相应的评估基准几乎还是空白。
与此同时,AI公司公开的信息越来越少,独立测试结果有时与公司自称的表现存在出入。吉尔教授点出了一个关键:“很多公司不公开自己的模型在某些基准上的表现,尤其是那些涉及‘负责任AI’的基准。”她补充道,“你不公开某项基准的表现,这件事本身可能就说明了一些问题。”

从进入主流视野算起,不到三年时间,AI用户已覆盖全球超过一半人口,其普及速度甚至超过了当年的个人电脑和互联网。据统计,约88%的组织机构已在不同程度上使用AI,大学生中每五人就有四人用过AI工具。
尽管部署仍处早期,但AI对就业市场的影响已初现端倪,尽管精确量化还为时过早。一些研究显示,AI正开始影响特定行业,尤其是年轻从业者。斯坦福经济学家2025年的一项研究发现,22至25岁软件开发者的就业人数,自2024年以来下降了近20%。这一变化虽不能全部归因于AI,更广泛的经济环境也是因素之一,但AI在其中扮演的角色已不容忽视。

(来源:麻省理工科技评论)
雇主的预期似乎印证了这一趋势。麦肯锡2025年的一项调查显示,三分之一的组织预计AI将在未来一年内导致员工规模缩减,尤其是在服务与供应链运营、软件工程等领域。报告引用的研究数据提供了更细致的图景:AI在客户服务领域提升了14%的生产力,在软件开发领域更是提升了26%。然而,对于那些更依赖人类经验和判断力的任务,生产力的提升尚未显现。整体而言,AI对宏观经济的全面影响,仍需更多时间才能清晰浮现。

全球公众对AI的情感是复杂而矛盾的。益普索(Ipsos)的调查显示,59%的人认为AI带来的好处会多于坏处,但同时,52%的人承认AI让他们感到紧张。这种既期待又担忧的心态,构成了社会接纳AI的普遍底色。
然而,一个显著的认知鸿沟横亘在专家与普通公众之间,其中最大的分歧出现在对就业影响的判断上:高达73%的专家认为AI将对人们的工作方式产生正面影响,但在美国公众中,持此乐观看法的人仅有23%。在AI对教育和医疗的影响上,专家同样比公众更为乐观。不过,双方在一个问题上达成了共识:都认为AI可能对选举和人际关系产生负面影响。

(来源:麻省理工科技评论)
另一个值得关注的发现来自益普索的另一项调查:在受访国家中,美国人对本国政府监管AI能力的信心最低。具体而言,担心联邦AI监管力度不足的美国人,要多于担心监管过度的人。这反映出公众对有效治理这项快速发展的技术,怀有深切的忧虑。

面对狂奔的AI,全球各国政府都在努力为其套上“缰绳”,过去一年确实取得了一些立法进展。欧盟《人工智能法案》的首批禁令已经生效,明确禁止在预测性警务和情感识别中使用AI。日本、韩国和意大利也相继通过了各自的国家级AI法律。
与此形成对比的是,美国联邦政府层面走向了“去监管化”。特朗普总统签署行政命令,试图限制各州对AI的监管权限。然而,尽管联邦层面如此,美国各州立法机构却异常活跃,在一年内通过了创纪录的150项AI相关法案。其中,加州的立法具有标志性意义,例如SB 53法案要求AI模型开发者履行安全披露义务,并为举报者提供保护。纽约州则通过了RAISE法案,要求AI公司公开安全规范并报告重大安全事件。

(来源:麻省理工科技评论)
然而,立法活动的频繁,并不意味着监管已经到位。吉尔教授一语道破关键:监管仍然在追赶技术,根源在于我们对AI本身的理解还远远不够。“各国政府在监管AI上很谨慎,因为……我们很多事情都没搞清楚,”她坦言,“我们对这些系统还没有很好的把握。”
报告原文链接:https://www.technologyreview.com/2026/04/13/1135675/want-to-understand-the-current-state-of-ai-check-out-these-charts/
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
正版软件
正版软件
正版软件
正版软件
正版软件
1
2
3
4
5
6
7
8
9