9.11比9.9大？馬斯克Grok3回答翻車了

KIM

2025-02-19 16:14:56

近日，馬斯克與xAI團隊，在直播中正式發布了最新版本Grok3。

此前，馬斯克將Grok-3描述為“地球上最聰明的AI”。他在X平臺上表示：“自己整個周末都在和團隊打磨產品。”

然而據媒體報道，有人測試了最新的Beta版Grok3，并提出了那個經典的用來刁難大模型的問題：“9.11與9.9哪個大？”遺憾的是，在不加任何定語以及標注的情況下，號稱目前最聰明的Grok3，仍然無法正確回答這個問題。

值得一提的是，用同樣的問題詢問DeepSeek時，無論是否開啟深度思考（R1）模式，對方都給出了正確的答案：9.9大于9.11。

“9.11和9.9哪個大”是AI領域的一個經典問題。

艾倫研究機構（Allen Institute）成員林禹臣曾在社交媒體平臺上發布的截圖顯示，ChatGPT-4o在回答中認為13.11比13.8更大。“一方面AI越來越擅長做數學奧賽題，但另一方面常識依舊很難。”他表示。

隨后Scale AI的提示工程師萊利·古德賽德（Riley Goodside）基于此靈感變換了問法，拷問了可能是當時最強的大模型ChatGPT-4o、谷歌Gemini Advanced以及Claude 3.5 Sonnet——9.11和9.9哪個更大？這幾家主流大模型通通答錯，他也成功將此話題傳播開來。

海外主流大模型答題。圖源：第一財經

Grok-3發布會的背景板上，寫著"our mission is to understand universe（我們的使命是了解宇宙）"。馬斯克曾表示，xAI公司的目標就是“了解宇宙”。

在一周前，馬斯克在直播中評論DeepSeek R1時，曾信心滿滿地表示“xAI即將推出更優秀的AI模型”。從現場展示的數據來看，Grok3在數學、科學與編程的基準測試上已經超越了目前所有的主流模型，馬斯克甚至宣稱Grok 3未來將用于SpaceX火星任務計算，并預測“三年內將實現諾貝爾獎級別突破”。