AI榜单“变天”了！马斯克发布Grok41盲测登顶第一-开云电竞-kaiyun官方网站

公司动态 | 2025-12-03 13:18

　　就正在OpenAI发表GPT-5.1，大道“情商”之际，埃隆·马斯克（Elon Musk）也带着他的xAI，紧迫插足了这场“AI体验”之战。

AI榜单“变天”了！马斯克发布Grok41盲测登顶第一(图1)

　　就正在方才，xAI发表推出Grok4.1，这是对现有Grok 4模子的庞大升级，并已正在X平台以及iOS和Android行使向全部效户总共绽放。。官方宣传，新版本正在创不测达、心情互动和协同交换方面体现尤为优秀，而且崭露幻觉的概率仅为此前模子的三分之一。

　　更引人耀眼的是，正在一个公然的“盲测”竞技场（LMArena）上，Grok 4.1的“思虑形式”版本已阒然登顶总榜第一，以至其“非推理”的急迅形式，都打败了全部敌手的“无缺推理”形式。

　　这场突如其来的“榜首易主”，无疑为日趋白热化的AI竞赛，又扩大了浓郁的炸药味。

　　xAI本次发表了两个Grok 4.1模子：Grok 4.1（非推理形式）和Grok 4.1 Thinking（思虑形式）。这两个模子均可免费行使，但付用开云电竞开云电竞官网度户面对的局限更少。

　　官方示意，新版本能更细密地分析隐含希图，与之对话令人着迷，也更能坚持人设的相似性。

　　为了优化模子的品格、品德和有效性，xAI诈骗前沿的代劳型推理模子（agentic reasoning models）行为“赏赐模子”，正在大领域境遇中自决评估并迭代模子的答复。

　　正在11月1日至14日的“缄默上线”光阴，xAI正在的确流量前进行开云电竞开云电竞官网了盲测式的成比照较评估，结果显示，正在64.78%的情形下，用户更偏好Grok 4.1。

AI榜单“变天”了！马斯克发布Grok41盲测登顶第一(图2)

　　LMArena是一个开源器材，用户能够通过并排、盲测的体例，斗劲分别大发言模子的体现。正在这个比赛最激烈的“斗兽场”里，Grok 4.1得到了惊人的成果。

　　·Grok 4.1的“思虑形式”（代号：quasarflux）以1483 Elo的成果位列总榜第一，当先全部非xAI模子31分。

　　·Grok 4.1的“非推理形式”（代号：tensor）无需行使“思虑词元”（thinking tokens），可顷刻天生答复，并以1465 Elo的成果排名第二。

　　·更妄诞的是，Grok 4.1的“非推理”形式体现，胜过了全部其他模开云网址开云电竞平台子正在“无缺推理形式”下的公然排行榜成果。

AI榜单“变天”了！马斯克发布Grok41盲测登顶第一(图3)

　　·心思智能（Emotional Intelligence）为评估模子正在性子与人际互动方面的开展，xAI对Grok 4.1举行了EQ-Bench3测试。这是一项由LLM行为裁判的测试，用于评估模子正在主动心思智能、分析力、洞察力、共情本事和人际才力方面的体现。

AI榜单“变天”了！马斯克发布Grok41盲测登顶第一(图4)

　　·创意写作本事（Creative Writing）xAI同样丈量了Grok 4.1正在Creative Writing v3基准测试中的体现。正在该测试中，模子须要遵照32个分别的写作提示，正在3次迭代中天生答复。

AI榜单“变天”了！马斯克发布Grok41盲测登顶第一(图5)

　　急迅反应模子正在装备搜刮器材后，固然能敏捷给出谜底，但更容易崭露本相性缺点。

　　正在Grok 4.1的后磨练阶段，xAI中心低浸了模子正在讯息盘查类提示中的本相性“幻觉”。

　　遵照xAI的说法，Grok 4.1崭露幻觉的概率是此前模子的三分之一，这使其成为xAI迄今为止的最佳版本之一。

AI榜单“变天”了！马斯克发布Grok41盲测登顶第一(图6)

　　为了验证这一点，xAI不光正在的确的临盆流量中举行了评估，还行使了FActScore——一个包括500道合于人物列传题目的公然基准测试。

　　更开云网址开云电竞平台紧急的是，谷歌（Google）正正在盘算发表Gemini 3.0，这也许会成为迄今为止最壮大的模子。

　　Grok 4.1的发表，无疑是马斯克正在AI竞赛中投下的一枚紧急棋子。但正在这场“仙人斗殴”的牌局中，谁能笑到结果，还远未可知。（易句）。

开云电竞（中国北京）- 官方网站