
OpenAI 公佈最新版本 GPT-4 稱其能在 SAT 考試中擊敗 90% 人類

OpenAI 公佈了其主要大型語言模型 GPT 的最新版本 GPT-4,並表示模型在許多專業測試中表現出 “人類水平的性能”
智通財經 APP 獲悉,週二,OpenAI 公佈了其主要大型語言模型 GPT 的最新版本 GPT-4,並表示模型在許多專業測試中表現出 “人類水平的性能”。
ChatGPT-4 比以前的版本 “更大”,這意味着它已經在更多的數據上進行了訓練,它的運行成本也更高。
目前,此領域的許多研究人員認為,人工智能領域的許多最新進展,都來自於在數千台超級計算機上運行越來越大的模型,這些模型的訓練過程可能耗資數千萬美元。GPT-4 是 “擴大規模” 以獲得更好結果的訓練方法的一個例子。
OpenAI 表示,它使用的是微軟 (MSFT.US) Azure 訓練模型,微軟已經向這家初創公司投資了數十億美元。OpenAI 沒有公佈具體模型大小的細節,也沒有公佈用來訓練模型的硬件,理由是 “競爭情況”。
OpenAI 的 GPT 大型語言模型為許多人工智能演示提供了支持,包括必應的 AI 聊天和 ChatGPT,這些演示在過去六個月裏讓科技行業的人們驚歎不已。最新版本是新技術的預覽,可能會在未來幾周內開始整合到聊天機器人等消費產品中。微軟週二表示,必應的人工智能聊天機器人將使用 GPT-4。
OpenAI 表示,新模型將產生更少的錯誤答案,更少地偏離話題,更少地談論禁忌話題,甚至在許多標準化測試中比人類表現得更好。
OpenAI 稱,GPT-4 在模擬律師資格考試中排名第 90,在 SAT 閲讀考試中排名第 93,在 SAT 數學考試中排名第 89。
然而,OpenAI 警告説,新軟件還不完美,在許多情況下,它的能力不如人類。公司表示,它仍然存在 “幻覺” 或自己編造的主要問題,而且在事實問題上並不可靠。它仍然傾向於在錯誤的時候堅持自己是正確的。
公司在一篇博客文章中表示:“GPT-4 仍有許多已知的侷限性,我們正在努力解決,比如社會偏見、幻覺和對抗性提示。在閒談中中,GPT-3.5 和 GPT-4 之間的區別可能很微妙。當任務的複雜性達到足夠的閾值時,差異就顯現出來了——GPT-4 比 GPT-3.5 更可靠、更有創造力,能夠處理更細緻的指令。”
新模型將提供給 ChatGPT 的付費用户,也將作為 API 的一部分提供,允許程序員將 AI 集成到他們的應用程序中。OpenAI 將對 750 字左右的指令信息收費 3 美分,對 750 字左右的響應信息收費 6 美分。
