Grok 3:10萬塊H100煉出“最聰明AI”,GPT-4地位不保?
北京時間2025年2月18日,馬斯克在迪拜世界政府峰會上正式發(fā)布xAI第三代大模型Grok 3時如此評價。
2025-02-19 08:37:27
來源:PConline??

“它聰明得有些嚇人。”

北京時間2025年2月18日,馬斯克在迪拜世界政府峰會上正式發(fā)布xAI第三代大模型Grok 3時如此評價。這場發(fā)布會如同一顆“核彈”,炸穿了全球AI圈的平靜:Grok 3在AIME數(shù)學(xué)測試中以52分碾壓DeepSeek-V3的39分,推理能力自稱超越OpenAI的o1和R1模型,訓(xùn)練成本高達30億美元,甚至被曝出“證明黎曼猜想”的瘋狂傳聞。馬斯克宣稱:“這是地球上最聰明的AI”,而行業(yè)則陷入了一場關(guān)于技術(shù)、倫理與商業(yè)的激烈爭論。

一、技術(shù)突破:10萬塊H100煉出“思維鏈”,數(shù)學(xué)屠榜背后的硬核邏輯

“Grok 3的思考方式像人類一樣有步驟”——這是馬斯克在發(fā)布會上反復(fù)強調(diào)的亮點。 該模型首次引入“思維鏈”(Chain of Thought)推理機制,使其能夠分步驟拆解復(fù)雜問題。例如,面對一道物理題,Grok 3會先列出已知條件,再推導(dǎo)公式,最后分步計算答案。這種能力直接體現(xiàn)在AIME數(shù)學(xué)測試中:Grok 3得分52分,遠(yuǎn)超DeepSeek-V3(39分)和GPT-4o(未公布具體分?jǐn)?shù))。

算力與效率的雙重碾壓

為訓(xùn)練Grok 3,xAI動用了10萬塊英偉達H100 GPU,預(yù)訓(xùn)練數(shù)據(jù)量達到驚人的50萬億token。相比之下,GPT-4的訓(xùn)練算力僅需2.5萬塊A100芯片。更令業(yè)界咋舌的是,xAI從Grok-0迭代到Grok-3僅用18個月,而OpenAI從GPT-3到GPT-4耗時近3年。這種“馬斯克速度”背后是極致的工程優(yōu)化:Grok 3的推理速度比上一代提升10倍,且支持多模態(tài)輸入(文本、圖像、代碼)。

爭議與彩蛋:Grok 3真的證明了黎曼猜想?

發(fā)布會后,一則傳聞引發(fā)數(shù)學(xué)界震動:Grok 3在訓(xùn)練過程中“證明”了黎曼猜想,導(dǎo)致xAI暫停訓(xùn)練以驗證結(jié)果。盡管尚未被學(xué)界確認(rèn),但這一事件側(cè)面印證了Grok 3的推理潛力——它已能處理最復(fù)雜的數(shù)學(xué)猜想。

二、行業(yè)洗牌:OpenAI遭遇最強挑戰(zhàn)者,DeepSeek神話終結(jié)?

“Grok 3的目標(biāo)是成為OpenAI的替代品。” 馬斯克在發(fā)布會上直言不諱。從性能對標(biāo)來看,Grok 3在編程、數(shù)學(xué)、科學(xué)等領(lǐng)域全面超越GPT-4o,且在LMSYS競技場評分首破1400分,而GPT-4o僅為1280分。更致命的是,xAI同步推出Grok 3推理模型(Grok-3 Reasoning)和輕量版Grok-3 mini,直接覆蓋高、中、低端市場。

中國廠商的“壓力測試”

此前憑借數(shù)學(xué)能力屠榜的國產(chǎn)模型DeepSeek-V3,在Grok 3面前黯然失色:其AIME得分落后13分,且Grok 3的思維鏈功能使其在復(fù)雜問題處理上更接近人類專家。行業(yè)分析師指出:“中國廠商若不能突破推理瓶頸,將面臨市場份額流失風(fēng)險。”

訓(xùn)練成本戰(zhàn):30億美元豪賭未來

Grok 3的訓(xùn)練費用高達30億美元,遠(yuǎn)超GPT-4的1億美元。這一數(shù)字背后是馬斯克的野心:通過極致算力投入建立技術(shù)壁壘。正如xAI工程師所言:“我們不是在優(yōu)化成本,而是在創(chuàng)造未來?!?/p>

三、用戶體驗:幽默感AI如何走進日常生活?

“讓AI不再像個冰冷的機器” ——這是Grok系列的核心設(shè)計理念。Grok 3在交互中增加了更多擬人化表達,例如用emoji表情回應(yīng)情緒化提問,甚至能創(chuàng)作融合《寶石迷陣》和《俄羅斯方塊》的混合游戲。

教育、醫(yī)療、創(chuàng)作的顛覆性場景

教育:Grok 3可逐步講解微積分難題,并生成配套練習(xí)題;
醫(yī)療:根據(jù)患者癥狀描述,自動生成診斷建議和用藥方案;
創(chuàng)作:在發(fā)布會演示中,Grok 3用10分鐘編寫出一款可運行的小游戲。

用戶實測:效率提升,但可靠性存疑

盡管早期測試用戶盛贊其效率(例如代碼生成速度比GPT-4快40%),但也有開發(fā)者指出,Grok 3在處理專業(yè)領(lǐng)域問題時仍會“一本正經(jīng)地胡說八道”。xAI回應(yīng)稱:“所有缺陷將在一周后的正式上線版本解決?!?/p>

四、爭議與隱憂:最聰明AI會是潘多拉魔盒嗎?

“當(dāng)AI比人類更聰明時,我們?nèi)绾慰刂扑???馬斯克曾在多個場合警告AI風(fēng)險,但Grok 3的發(fā)布卻將這種矛盾推向頂點:一方面,他呼吁加強AI監(jiān)管;另一方面,他又在推進“不受限的技術(shù)突破”。

倫理挑戰(zhàn):從信息繭房到就業(yè)沖擊

信息真實性:Grok 3的“幽默感”可能導(dǎo)致錯誤信息以更隱蔽的方式傳播;
就業(yè)替代:其代碼和文案生成能力可能沖擊初級程序員和文案崗位;
隱私安全:10萬億級訓(xùn)練數(shù)據(jù)是否包含用戶隱私?xAI尚未公開數(shù)據(jù)來源。

行業(yè)質(zhì)疑:技術(shù)躍進還是營銷噱頭?

盡管馬斯克宣稱Grok 3“超越所有現(xiàn)有AI”,但科技媒體指出,其演示案例多為限定場景,尚未經(jīng)過第三方大規(guī)模測試。DeepMind研究員評論稱:“真正的AGI需要通用性,而非單項指標(biāo)領(lǐng)先?!?/p>

結(jié)語:AI競賽進入“馬斯克時間”

Grok 3的發(fā)布不僅是一場技術(shù)秀,更是一封“戰(zhàn)書”——它宣告AI競賽進入以算力堆砌和工程迭代為核心的“硬核時代”。當(dāng)馬斯克用10萬塊H100砸開AGI的大門時,OpenAI、谷歌和中國廠商們必須回答一個問題:跟上這種瘋狂的速度,需要付出多大代價? 而普通用戶更關(guān)心的是:當(dāng)AI聰明到“嚇人”時,我們該如何與它共處?

最新文章
1
全域出擊,引爆618,磁力金牛618活動玩法來襲,預(yù)熱會場即將上線
2
快手電商商家大會達人分論壇探索私域新增量,多種方式加速新達人成長
3
快手本地生活“五一”假期GMV同比增長108%,新線城市消費力爆發(fā)
4
2025年一季度電視銷售額規(guī)模同比增長3.4%,高端品質(zhì)化提速
5
分拆安得智聯(lián)“赴港”,美的在下一盤什么棋?
6
不卷了?美的海信攜手 友商變伙伴!
7
中國客廳最貴智能設(shè)備!閨蜜機銷量大漲超42%
8
國內(nèi)監(jiān)控攝像頭第一季度銷量如何 小米成電商霸主 銷量、銷額雙第一!
9
史無前例!曝折疊屏iPhone首發(fā)三星全新面板:折痕幾乎不可見
10
把家打造成超級玩家基地!Vidda貼貼壁紙電視和C3系列投影發(fā)布
11
100英寸電視銷量暴增150%,成為電視行驅(qū)動換新的主力軍
12
realme概念機搭載10000毫安時電池,充電寶可能要退役了?!
13
內(nèi)銷承壓之下,小家電企業(yè)押注出海能翻盤嗎?
14
技術(shù)、國補雙軌并行,智能馬桶行業(yè)迎來結(jié)構(gòu)性增長黃金期
15
蘋果高管:10年后你可能不需要iPhone了
16
聯(lián)想moto razr 60 Ultra國行今天發(fā)布:首款驍龍8至尊版小折疊
17
全球最薄驍龍8至尊版旗艦!三星Galaxy S25 Edge官宣
18
快手電商在鄭州舉辦新商培訓(xùn)會,助力服裝檔口商家開拓新渠道
19
快手電商上線618蓄水期開播助推政策,助力商家達人在五一假期收獲經(jīng)營增長
20
直播電商高質(zhì)量發(fā)展研討會在京舉辦,直播電商成為促消費“主戰(zhàn)場”
關(guān)于我們

微信掃一掃,加關(guān)注

商務(wù)合作
  • QQ:61149512