免责声明：金色财经所有资讯仅代表作者个人观点，不构成任何投资理财建议。请确保访问网址为（jinse.cn）举报

马斯克发布Grok3：多项测试超越DeepSeek 展现强劲竞争力

AI范儿

刚刚

来源：AI范儿

xAI今日发布新一代大语言模型Grok-3及其精简版Grok-3 mini。最新基准测试显示，Grok-3在与DeepSeek的直接对比中展现出显著优势。

在数学能力测试（AIME'24）中，Grok-3获得52分，明显超过DeepSeek-V3的39分。科学知识评估（GPQA）方面，Grok-3以75分的成绩领先，而DeepSeek-V3为65分。在编程能力测试（LCB Oct-Feb）中，Grok-3同样以57分超过DeepSeek-V3的36分。

最新公布的AIME 2025性能测试中，Grok-3 Reasoning Beta版本在推理和计算时间复合评分上取得93分的优异成绩，其精简版本Grok-3 mini也达到了90分。相比之下，DeepSeek-R1的得分为75分，而Gemini-2 Flash Thinking仅为54分。这一结果进一步凸显了Grok-3在复杂数学推理和计算效率方面的突出优势。

特别值得注意的是，DeepSeek近期发布的DeepSeek-R1在其他推理能力测试中也未能赶超Grok-3。在数学推理中，Grok-3获得93分，DeepSeek-R1为73分；科学推理中，Grok-3得分85分，DeepSeek-R1为74分；编程推理中，Grok-3达到79分，而DeepSeek-R1为65分。

此外，在LMSYS聊天机器人竞技场评估中，Grok-3的得分约为1400分，不仅超过了DeepSeek系列，也领先于其他主流大模型，包括GPT-4、Claude等。

这些数据表明，尽管DeepSeek在过去几个月展现出强劲的发展势头，但Grok-3的整体性能仍然保持领先地位。特别是在数学推理和计算效率方面的优势更为明显，这不仅体现了xAI在模型研发上的技术实力，也显示出AI领域竞争的白热化程度。

0

好文章，需要你的鼓励

参与评论

0/140

提交评论

声明：本文由入驻金色财经的作者撰写，观点仅代表作者本人，绝不代表金色财经赞同其观点或证实其描述。

提示：投资有风险，入市须谨慎。本资讯不作为投资理财建议。

金色财经 > AI范儿 > 马斯克发布Grok3：多项测试超越DeepSeek 展现强劲竞争力

24小时热文

尼日利亚对币安提起 815 亿美元诉讼
金色精选
Grayscale：五大案例看懂DePIN如何连通加密与现实
金色财经
金色早报丨币安在尼日利亚被起诉欧盟MiCA批准10家稳定币发行商
金色早8点
Glassnode：看懂加密市场未来资本走向及牛熊阈值
金色财经
一文看懂Walrus与现有存储协议有何差异
金色财经
Bankless：本周值得关注的三大NFT热点
金色精选
马斯克旗下xAI推出“地球最强AI”
元宇宙之心
AI Agent——加密圈的“短视”与硅谷的“远见”
道说区块链
Web3 沉默法则：两年学发币一生学闭嘴
佐爷歪脖山
Consensus HK 2025圆桌讨论：DeFi的未来
金色财经
「金色星享会·大"势"发声」香港站圆满收官现场演讲高光时刻
金色财经
加密市场宏观研报：加密ETF机构入场潮来袭 2025加密行业或将再创新高
HTX成长学院专栏

寻求报道
金色财经APP

iOS & Android
加入社群
Telegram
意见反馈
返回顶部
返回底部