迪士尼彩乐园三邀请码 马斯克“地表最强”Grok 3炸场,竞技场首超1400分

剪辑部 发自 凹非寺量子位 | 公众号 QbitAI迪士尼彩乐园三邀请码

刚刚,xAI的Grok 3终于亮相(超300万东谈主次围不雅)!

一出谈即巅峰,竞技场(lmarena.ai)官方给出了这么的评价:

Grok 3是首个破损1400分的模子,而且在总共类别中排行第一。

而且,Grok 3如故首个在10万张(后扩张到20万)H100集群上教养出的模子。

在发布预报讯息的时候,马斯克就对Grok 3苟且夸赞,称其是“地球上最颖异的AI”

发布之前,大神Karpathy取得了抢先体验履历,玩了两个小时之后发长文胪陈了我方的感受。

Karpathy认为,Grok-3的想考才智达到了SOTA,推理水温暖o1-pro差未几,略好于DeepSeek R1和Gemini的推理模子。

要是讨论到Grok 3是一年前从新启动教养的,取得这么的获利属实不成想议。

而且关于数字母、少量比大小这些经典大模子“难题”,Grok 3在开启推理之后也齐正确处理。

不外也东谈主质疑Grok的地位,有一位仿冒老黄的网友说,Grok 3即便确切是最强,也最多只可强一周。

加上OpenAI也剧透了下一代GPT霸术,马斯克和奥特曼的另一场推特大战就要爆发了。

奥特曼昨晚也发推称,GPT-4.5的测试让他感受到了比预期更蛮横的“feel the AGI”的嗅觉。

还有网友到辩驳区起哄,让他在早上截胡马斯克,直播发布GPT-4.5。

离题万里,咱们来看直播齐讲了啥。

20万张H100,训出最强模子

这次直播一共有四东谈主参与,除了马斯克以外,较为醒指标即是坐在C位的两位华东谈主,他们齐是xAI创举成员。

二东谈主从左至右区别是:

Jimmy Ba,2023年斯隆奖得主,Hinton部属的助理讲授,本科到博士齐在多伦多大学。吴宇怀Yuhuai(Tony)Wu,斯坦福大学博士后,博士毕业于多伦多大学。

而最左边的则是Igor Babuschkin,是xAI的一位工程师。

四东谈主先是先容了Grok 3的教养历程。

客岁马斯克剧透,Grok 3在10万张H100上进行教养,是首个达到如斯教养集群限制的模子。

其时就有网友称这险些是神经集聚的超等工场。

今天的发布会上又显现,到教养进行到第92天时,集群限制扩张到了20万卡

如斯雄壮算力,xAI亦然紧跟潮水在Grok 3中推出了想维链推理才智

在此前迪拜的一场峰会上,马斯克高调声称:

Grok 3具有雄壮推理才智,颖异进程罕见目下总共已知模子。

这一波Grok 3有满血和mini两个版块,在数学、科学、代码等数据集上泄漏均跨越了GPT-4o、DeepSeek-V3等非推理模子。

而且Grok 3早期还假名“巧克力”打榜LMSYS,一举夺魁并成为惟逐个个得分超1400的模子

在Grok 3和mini的基础之上,xAI团队还打造了两款推理模子

其中基于mini的推理模子(Grok 3 mini Reasoning)仍是比拟锻练,而基于满血版的推理模子(Grok 3 Reasoning Beta)还处在Beta阶段。

先容获利之前,四东谈主用马斯克的账号先让Grok跑了两个案例,区别和物理学以及游戏相关。

生成一段代码,为从地球降落在火星,然后鄙人一个辐照窗口复返地球的辐照绘制三维动绘画表。

生成的经过中,有东谈主开打趣说什么时候能把Grok装到SpaceX的火箭上,马斯克也回话说可能再过2年。

马斯克还暗意,要是一切成功,SpaceX将在梗概2025年11月驾驭,也即是下一个地球-火星蜕变窗口期,用星舰把擎天柱机器东谈主奉上火星。

说回Grok,在讨论了开普勒定律并将其退换为代码之后,最终身成了不错绘制出这么的动画的代码:

第二个问题开启了Big Brain方式,会让模子用更多的筹画资源去作念更多的想考。

题目条目则是使用pygame组件,联想一款游戏,把俄罗斯方块和坚持迷阵缝合到一谈。

同期还教导代码可能会很长,需要保存到一个文献当中,而且要“insanely great”。

而Grok 3也不负众望,把这两款游戏告捷邻接,并先容了合体版游戏的特色:

运行起来是酱婶儿的,既有俄罗斯方块的排斥机制,又凭据坚持迷阵的特色妥洽成了三个方块排斥一次。

再来看跑分限度,在数学、科学和代码任务中,两者齐取得了不俗的获利。

而且要是让他们“多想考”(柱状图上方淡色部分)之后,泄漏罕见了DeepSeek-R1和高配版o3-mini

不外,目下好多模子齐在Benchmark上出现了“过拟合”的时局,那么Grok 3的现实泄漏究竟咋样呢?

研发团队让它们挑战了本年AIME 2025竞赛的试题,限度Grok-3 Reasoning Beta和mini Reasoning区别取得了93和90分的获利,力压其他推理模子。

除了Grok 3预教养模子和两个推理模子以外,这次xAI团队还发布了一个AI Agent,叫作念DeepSearch

这个功能不错看作念是xAI对OpenAI、谷歌等不息推出的Deep Research功能的对标。

简而言之,DeepSearch通过扫描互联网和X来分析信息,并提供节录往复答问题。

至于权限方面,迪士尼彩乐园2X的Premium+用户本日起不错体验Grok 3。

孤苦APP上,则需要订阅SuperGrok30好意思元/月300好意思元/年

发布经过贫乏重重,语音方式推迟上线

而纵不雅Grok 3问世的总共这个词经过,也可谓是贫乏重重。

客岁8月,马斯克领受著名访谈博主Lex Fridman采访时曾说过,Grok 3在有望畴昔年底发布。

限度一直到本年1月19号,第一个测试实例才终于被公布,现实发布更是拖到了当今。

而且就在发布前的周末,xAI团队还在对Grok 3进行进犯打磨。

xAI职工也以身作则,周日晚11:30(北京时代周一下昼3:30,也即是发布前不到24小时)发帖暗意还在熬夜赶工。

致使到了发布会前一个半小时,马斯克一霎文牍本来贪图发布的语音功能需要脱期。

马斯克发推称,语音方式还有些不清醒,需要推迟到一周之后。

现场QA才略也有网友发问具体发布时代,团队的回答是“很快会上线一个早期版块,然后冉冉迭代”。

不外,同属马斯克旗下的Neuralink高管Shivon Zilis曾体验过1个小时的Ara,并在北京时代今早发布了她的体验感受。

Shivon暗意,那是她一世中最不测、最挑升想的时代之一。

她和Ara聊了生物学、量子纠缠等话题,还让Ara出题磨练她的学习效果。

限度Shivon只答对了一半的问题,但Ava相等耐烦性向她证明了其余的问题,而且并不会嫌问题问得过于愚蠢。

其时还有东谈主在辩驳区追问,Ara是语音版块吗,Shivon给出了细则的回答。

寻求100亿好意思元新融资,还要进军游戏

事实上,老马聘请此时发布Grok 3未免有一丝私密。

就在上周五,彭博社爆料xAI正寻求一轮约100亿好意思元的新融资,公司估值达到约750亿好意思元(5454.6亿元东谈主民币)。

现存投资者包括红杉成本、Andreessen Horowitz以及Valor Equity Partners,正在洽谈参与这次融资。

由于还莫得最终敲定,新模子的发布粗略率将对本轮融钞票生一定影响。

一向上述讯息得到阐发,彰着xAI的融资速率确切有点惊东谈主了。

客岁12月底,这家公司才刚完成了一轮60亿好意思元的C轮融资,其时公司估值510亿好意思元。

短短不到两个月,公司估值顺利涨了约47%。而且再往前推,从B轮到C轮的融资,更是收尾了半年内估值翻倍。

不错说,仅拓荒不到两年的xAI,仍是成长为OpenAI的雄壮敌手。

而有了弥散资金的xAI,除了连续发展模子,也官宣了其他标的——

西媒《世界体育报》和《每日体育报》日前一致报道了球员和俱乐部双方之间已经进展深入的谈判,转会名记罗马诺也表示:“巴萨在签下若纳坦-塔的谈判中继续取得了进展。”

西蒙尼又补充道:“当事情不顺利时,就像在任何工作中一样,你会带着更低的能量回到家,但看到女儿们在笑,妻子给你一个微笑,那种愤怒就会有所变化。”

押注游戏边界,拓荒AI游戏职责室。

这一讯息最早在客岁11媒妁马就显现了,其时他吐槽“过多游戏职责室掌持在大型企业手中”。

这下,老马的贸易领土又将扩张了。

One More Thing

就在Grok 3发布前几日,还有一件相等抓马的事引起热议。

一位xAI工程师(当今是前职工了)公开发帖将Grok 3与其他几个竞品的代码才智进行了对比。

固然明晰标注了这是个东谈主不雅点,但彰着他将自家模子Grok 3排在第4位(前三名齐是OpenAI模子)的作念法如故惹来了争议。

随后该职工爆料称,公司条目他要么删帖,要么被衔命,意义是这条帖子露馅了Grok 3的存在。

一听这话,小哥合计有点扯,毕竟Grok 3人人早就知谈了,而且还甩出了马斯克之前的发言截图。

濒临着xAI的这波注重眼,小哥也顺利不惯着,带着一篇洋洋万言的小作文,决定辞职了。

我会保持我的言辞和尊容,找另一份职责,或者我方创业。回头见。

关于这件事,老马其后也回话了“这很奇怪”,但后续莫得更多行为传出。

更戏剧的是,由于对工资支付产生争议,小哥其后再次公开发帖艾特老马:

请作念正确的事。

不外,固然仍是“离异”,但参与了Grok 3语音方式的小哥如故不计前嫌,屡次帮衬宣传Grok 3。

而且今天老马文牍脱期的语音方式,亦然这位小哥场所团队的职责限度,即便仍是去职,小哥依然对这项职责感到自爱。

话说总结,你合计这次的Grok 3何如?比及下一代GPT发布之后,老马还能连续保持首先吗?

[1]https://x.com/i/broadcasts/1gqGvjeBljOGB[2]https://x.com/karpathy/status/1891720635363254772[3]https://x.com/shivon/status/1891587630854209768[4]https://x.com/hyhieu226/status/1891390812795146746