導(dǎo)讀:近日,OpenAI的一名員工公開指責(zé)埃隆?馬斯克旗下的xAI公司,稱其發(fā)布的最新AI模型Grok3的基準(zhǔn)測試結(jié)果具有誤導(dǎo)性。對(duì)此,xAI的聯(lián)合創(chuàng)始人...
近日,OpenAI的一名員工公開指責(zé)埃隆?馬斯克旗下的xAI公司,稱其發(fā)布的最新AI模型Grok3的基準(zhǔn)測試結(jié)果具有誤導(dǎo)性。對(duì)此,xAI的聯(lián)合創(chuàng)始人伊戈?duì)?巴布什金(Igor Babushkin)則堅(jiān)稱公司并無不當(dāng)。xAI的圖表顯示,Grok3的兩個(gè)版本——Grok3 Reasoning Beta和Grok3 mini Reasoning——在AIME 2025上的表現(xiàn)超過了OpenAI當(dāng)前最強(qiáng)的可用模型o3-mini-high。然而,OpenAI的員工很快在X平臺(tái)上指出,xAI的圖表并未包含o3-mini-high在“cons@64”條件下的AIME 2025得分。巴布什金在X平臺(tái)上辯稱,OpenAI過去也曾發(fā)布過類似的誤導(dǎo)性基準(zhǔn)測試圖表。盡管這些圖表是用于比較其自身模型的表現(xiàn)。
上一篇:女子持續(xù)發(fā)熱兩周未愈確診白血病 這也太可怕了
下一篇:最后一頁