Apple Study Asks Whether AI Can Think For Itself: Experts Say Its Limits Are Human-Made

一項由蘋果公司進行的新研究質疑了人工智能模型的推理能力，認為它們往往模仿智能行為，而非真正進行推理。對流行模型如 GPT-4 和 Claude 進行邏輯難題測試時，發現它們在複雜問題解決方面存在顯著失敗。儘管一些專家認為這些侷限性源於設計限制，而非固有缺陷，但其他人對該研究的方法論提出了批評。研究發佈後，蘋果的股票下跌，反映出人們對該公司在最近的全球開發者大會後人工智能進展的擔憂

來自 蘋果公司 的一項新研究引發了關於人工智能模型是否能夠真正推理或僅僅模仿智能行為的辯論。通過對 GPT-4 變體和 Claude 等系統進行經典邏輯難題的測試，研究表明這些工具在需要真正解決問題時可能會出現失誤。

發生了什麼： 蘋果發佈了一項研究，挑戰了大型語言模型（LLMs）能夠通過複雜任務進行邏輯推理的觀點。Ars Technica 解釋説，通過對 OpenAI 的 o1 和 o3、Claude 3.7 Sonnet 以及 DeepSeek-R1 等流行模型進行經典邏輯難題的測試，如漢諾塔和過河任務，研究團隊發現這些系統在遇到需要系統思維的不熟悉挑戰時往往會失敗。

即使配備了成熟的算法，這些模型也面臨困難——突顯了智能表現與實際邏輯思考之間的關鍵差距。

“大型語言模型無法可靠地解決漢諾塔問題真是令人尷尬，” 人工智能研究員 Gary Marcus 説道，聯合負責人 Iman Mirzadeh 補充説模型的表現顯示 “它們的過程並不邏輯且智能。”

研究還發現，儘管一些模型在中等難度任務上通過逐步推理表現更好，但隨着複雜性的增加，它們完全失敗，往往減少推理的努力而不是增加。

這種努力的奇怪下降，儘管計算資源充足，顯示了研究人員所稱的 “反直覺的規模限制”。在各種難題中也觀察到了不一致性，表明這些失敗是特定任務的，而不僅僅是技術上的問題。

為什麼這很重要： 一些專家反駁了蘋果的結論，認為人工智能模型中明顯的推理失敗可能源於內置的限制，而不是固有的缺陷。

Pierre Ferragu，來自 New Street Research 的分析師表示，這篇論文充滿了 “本體論的無稽之談”。

經濟學家 Kevin A. Bryan 提出，這些系統是在緊張的計算預算下訓練使用捷徑的。他和其他人指出，內部基準顯示，當允許更多的標記時，模型表現更好，但生產系統故意限制這一點以避免低效，這意味着蘋果的發現可能是設計上的限制，而非自然上的限制。

其他人，如軟件工程師 Sean Goedecke 和人工智能研究員 Simon Willison，質疑邏輯難題是否真的是對語言模型的公平測試。Goedecke 將 DeepSeek-R1 在漢諾塔上的失敗描述為避免不切實際輸出的有意識決定，而不是能力的缺乏。

Willison 補充説，測試可能只是遇到了標記限制，暗示這篇論文更具轟動性而非結論性。即使蘋果的研究人員也承認這些難題代表了推理挑戰的狹窄切片，並警告不要過於廣泛地推廣他們的結果。

這項研究恰逢全球開發者大會（WWDC），蘋果在會上發佈了一系列新產品的公告。專家們注意到缺乏任何新的人工智能功能，並表示失望，導致公司股票下調。在活動後，股價下跌，許多人對蘋果的人工智能未來提出了質疑。

價格動態： 蘋果股票目前交易價格為 198.76 美元，盤前下跌 -0.01%。

Benzinga Edge 排名顯示，動量為 29.72，價值為 9.02，增長為 32.90，質量以 76.94 的分數領先。欲瞭解更多詳情，請點擊這裏。

史蒂夫·喬布斯會 ‘解僱所有人’：蘋果在 iOS 26 中的液態玻璃在線遭到嘲諷——Dan Ives 稱 WWDC 2025 為 ‘無聊’

圖片來源：jamesteohart / Shutterstock.com