九游会欧洲杯马斯克所付出的代价堪称不菲：在发布会中-九游下载中心_九游游戏中心官网

北京工夫 2 月 18 日，马斯克与 xAI 团队，在直播中持重发布了 Grok 最新版块 Grok3。

早在本次发布会之前，依靠着种种关系信息的抛出，加上马斯克本东说念主 24/7 不间隔的预热炒作，让众人对 Grok3 的期待值被拉到了空前的历程。在一周前，马斯克在直播中指摘 DeepSeek R1 时，还信心满满地默示「xAI 行将推出更优秀的 AI 模子」。

从现场展示的数据来看，Grok3 在数学、科学与编程的基准测试上如故高出了当今总共的主流模子，马斯克致使声称 Grok 3 畴前将用于 SpaceX 火星任务计算，并展望「三年内将兑现诺贝尔奖级别冲破」。

但这些当今皆只是马斯克的一家之言。笔者在发布后，就测试了最新的 Beta 版 Grok3，并提议了阿谁经典的用来刁难大模子的问题：「9.11 与 9.9 哪个大？」

缺憾的是，在不加任何定语以及标注的情况下，堪称当今最聪惠的 Grok3，仍然无法正确复兴这个问题。

Grok3 并没准确识别出这个问题的含义 | 图片来源：极客公园

在这个测试发出之后，很短的工夫内赶快激发了不少一又友的关怀，无出奇偶，在国外也有许多近似问题的测试，举例「比萨斜塔上两个球哪个先落下」这些基础物理 / 数学问题，Grok3 也被发现仍然无法应答。因此被戏称为「天才不肯意复兴浮浅问题」。

Grok3 在本色测试中的许多知识问题上出现「翻车」 | 图片来源：X

除了网友自觉测试的这些基础知识上 Grok3 出现了翻车，在 xAI 发布会直播中，马斯克演示使用 Grok3 来分析他堪称频频玩的 Path of Exile 2 ( 充军之路 2 ) 对应的作事与升华效用，但本色上 Grok3 给出的对应谜底绝大部分皆是盘曲的。直播中的马斯克并莫得看出这个显然的问题。

Grok3 在直播中也出现给出数据无数盘曲的情况 | 图片来源：X

因此这个失实不仅成为了国外网友再次嘲讽马斯克打游戏「找代练」的实锤凭据，同期也为 Grok3 在本色垄断中的可靠性，再次打上了一个大大的问号。

关于这么的「天才」，不论本色材干几何，畴前被用于火星探索任务这么的额外复杂的垄断场景，其可靠性皆要打上一个大大的问号。

当今，稠密在几周前赢得 Grok3 测试阅历、以及昨天刚刚用上几个小时的模子材干测试者，关于 Grok3 现时的发达，皆指向了一个沟通的论断：

「Grok3 是很好，但它并不比 R1 或 o1-Pro 更好」

「Grok3 是很好，但它并不比 R1 或 o1-Pro 更好」 | 图片来源：X

Grok3 在发布宦官方的 PPT 中，在大模子竞技场 Chatbot Arena 中兑现「遥遥最初」，但这其实也垄断了一些小小的作图手段：榜单的纵轴仅列出了 1400-1300 分段的名次，让本来 1% 的测试纵脱差距，在这个 PPT 展示中皆变得额外显然。

官方发布 PPT 中的「遥遥最初」效用 | 图片来源：X

而本色的模子跑分纵脱，Grok3 其实也只比 DeepSeek R1 以及 GPT4.0 兑现了不到 1-2% 的差距：这对应了不少用户在本色测试中「并无显然分裂」的体感效用。

本色上的 Grok3，只比自后者高了 1%-2% | 图片来源：X

此外天然在分数上，Grok3 越过了当今公开测试的总共模子，但这极少并不被许多东说念主买账：毕竟 xAI 在 Grok2 期间就有在这个榜单中「刷分」，跟着榜单对复兴长度格调作念降权处理而大幅镌汰分数的情况，因此频频被业内东说念主士诟病「高分顽皮」。

不论是榜单「刷分」，照旧配图联想上的「小手段」，皆展示出的是 xAI 以及马斯克本东说念主关于模子材干「遥遥最初」这件事的捏念。

而为了这些差距，马斯克所付出的代价堪称不菲：在发布会中，马斯克用近乎娇傲的口气默示，用了 20 万张 H100（马斯克直播中默示使用「越过 10 万」张 ) 现实 Grok3，总现实小时数达到两亿小时。这让一部分东说念主合计这是对 GPU 行业的又一个紧要利好，并认为 DeepSeek 给行业带来的鼎新是「愚蠢」的。

不少东说念主认为堆砌算力将会是模子现实的畴前 | 图片来源：X

但本色上，有网友对比了使用 2000 张 H800 现实两个月得出的 DeepSeek V3，计算出 Grok3 其本色的现实算力耗尽是 V3 的 263 倍。而 DeeSeek V3 在大模子竞技场榜单上与得分 1402 分的 Grok3 的差距，致使还不到 100 分良友。

从这些数据出炉之后，就有不少东说念主快速鉴定到，在 Grok3 登顶「世界最强」的背后，其实是模子越大，性能越强的逻辑，如故出现了显然的角落效应。

即使是「高分顽皮」的 Grok2，其背后也有着 X（Twitter）平台内海量的高质料第一方数据行动守旧来使用。而到了 Grok3 的现实中，xAI 天然也会遭受 OpenAI 现时相同遭受的「天花板」——优质现实数据的不及，让模子材干的角落效应赶快曝光。

关于这些事实，最早鉴定到而况亦然最深远斡旋的东说念主，确定是 Grok3 的开采团队与马斯克，因此马斯克也在酬酢媒体上不断默示现时用户体验到的版块「还只是只是测试版」「圆善版将在畴前几个月推出」。马斯克本东说念主更是化身 Grok3 产物司理，建议用户平直在指摘区响应使用时所遭受的多样问题。

他大略是地球上粉丝数目最多的产物司理 | 图片来源：X

但不到一天之内，Grok3 的发达，无疑给寄但愿依靠「鼎力飞砖」现实出材干更强的大模子的自后者敲响了警钟：根据微软公开的信息计算，OpenAI GPT4 参数体积为 1.8 万亿参数，比拟 GPT3 如故升迁了越过 10 倍，而传奇中的 GPT4.5 的参数体积致使还会更大。

模子参数体积飞涨的同期现实资本也在飙升 | 图片来源：X

有 Grok3 在前，GPT4.5 以及更多想要连续「烧钱」，以参数体积来赢得更好模子性能的选手，皆不得不琢磨到如故近在目下的天花板，应该怎样冲破。

此时此刻，OpenAI 的前首席科学家 Ilya Sutskever 在客岁 12 月曾默示「咱们所熟识的预现实将会扫尾」，又被东说念主再行铭记来，并试图从中找到大模子现实的的确出息。

Ilya 的不雅点，如故为行业敲响了警钟 | 图片来源：X

彼时，Ilya 准确料意象了可用的新数据接近清贫，模子难以再连续通过获取数据来升迁性能的情况，并这种情况方法为化石燃料的耗尽，默示「正如石油是有限资源一样，互联网中由东说念主类生成的内容亦然有限的」。

在 Sutskever 展望中，预现实模子之后的下一代模子将会有「的确的自主性」。同期将具备「近似东说念主脑」的推理材干。

与如今预现实模子主要依赖的内容匹配（基于模子此前学习的内容）不同，畴前的 AI 系统将能够以近似于东说念主脑「想维」的形式，来冉冉学习并建造起惩处问题的门径论。

东说念主类对某一个学科作念到基本的忽闪，只需要基本专科竹素即可兑现，但 AI 大模子却需要学习数以百万计的数据才能兑现最基础的初学效用，致使当你换了个问法之后，这些基础的问题也无法正确斡旋，模子在的确的智能上并莫得得到升迁：著述源头提到的那些基础但 Grok3 仍然无法正确复兴的问题，即是这种悠闲的直不雅体现。

但在「力大飞砖」以外，Grok3 淌若简直能向行业揭示「预现实模子行将走到尽头」这个事实，那它对行业仍然称得上有着蹙迫的启发兴趣兴趣。

有时九游会欧洲杯，在 Grok3 的怒潮缓缓褪去之后，咱们也能看到，更多近似李飞飞「在特定数据集的基础上 50 好意思元微调出高性能模子」的案例出现。并在这些探索中，最终找到的确通向 AGI 的说念路。

新闻中心