OpenAI 公佈最新版本 GPT-4 稱其能在 SAT 考試中擊敗 90% 人類

OpenAI 公佈了其主要大型語言模型 GPT 的最新版本 GPT-4，並表示模型在許多專業測試中表現出 “人類水平的性能”

智通財經 APP 獲悉，週二，OpenAI 公佈了其主要大型語言模型 GPT 的最新版本 GPT-4，並表示模型在許多專業測試中表現出 “人類水平的性能”。

ChatGPT-4 比以前的版本 “更大”，這意味着它已經在更多的數據上進行了訓練，它的運行成本也更高。

目前，此領域的許多研究人員認為，人工智能領域的許多最新進展，都來自於在數千台超級計算機上運行越來越大的模型，這些模型的訓練過程可能耗資數千萬美元。GPT-4 是 “擴大規模” 以獲得更好結果的訓練方法的一個例子。

OpenAI 表示，它使用的是微軟 (MSFT.US) Azure 訓練模型，微軟已經向這家初創公司投資了數十億美元。OpenAI 沒有公佈具體模型大小的細節，也沒有公佈用來訓練模型的硬件，理由是 “競爭情況”。

OpenAI 的 GPT 大型語言模型為許多人工智能演示提供了支持，包括必應的 AI 聊天和 ChatGPT，這些演示在過去六個月裏讓科技行業的人們驚歎不已。最新版本是新技術的預覽，可能會在未來幾周內開始整合到聊天機器人等消費產品中。微軟週二表示，必應的人工智能聊天機器人將使用 GPT-4。

OpenAI 表示，新模型將產生更少的錯誤答案，更少地偏離話題，更少地談論禁忌話題，甚至在許多標準化測試中比人類表現得更好。

OpenAI 稱，GPT-4 在模擬律師資格考試中排名第 90，在 SAT 閲讀考試中排名第 93，在 SAT 數學考試中排名第 89。

然而，OpenAI 警告説，新軟件還不完美，在許多情況下，它的能力不如人類。公司表示，它仍然存在 “幻覺” 或自己編造的主要問題，而且在事實問題上並不可靠。它仍然傾向於在錯誤的時候堅持自己是正確的。

公司在一篇博客文章中表示：“GPT-4 仍有許多已知的侷限性，我們正在努力解決，比如社會偏見、幻覺和對抗性提示。在閒談中中，GPT-3.5 和 GPT-4 之間的區別可能很微妙。當任務的複雜性達到足夠的閾值時，差異就顯現出來了——GPT-4 比 GPT-3.5 更可靠、更有創造力，能夠處理更細緻的指令。”

新模型將提供給 ChatGPT 的付費用户，也將作為 API 的一部分提供，允許程序員將 AI 集成到他們的應用程序中。OpenAI 將對 750 字左右的指令信息收費 3 美分，對 750 字左右的響應信息收費 6 美分。