In just a few minutes, AI easily passed the CFA Level 3 exam

華爾街見聞
2025.09.25 03:34
portai
I'm PortAI, I can summarize articles.

最新研究顯示,多個 AI 模型已能在幾分鐘內通過享有盛譽的 CFA 三級考試,而人類通常需要數年學習。其中 Gemini 2.5 Pro 綜合表現最佳,國產 KIMI K2 在多選題正確率達 78.3%。儘管 AI 考試表現出色,但專家認為在情境理解等方面仍難以完全替代人類金融專業人士。

最新研究顯示,多個 AI 模型已能在幾分鐘內通過享有盛譽的 CFA 三級考試,而人類通常需要數年時間和約 1000 小時學習才能完成。

紐約大學斯特恩商學院和 AI 財富管理平台 GoodFin 的研究人員測試了 23 個大型語言模型,發現包括 o4-mini、Gemini 2.5 Pro 和 Claude Opus 在內的前沿推理模型能夠成功通過 CFA 三級模擬考試。

這些模型採用"思維鏈提示"技術,有效應對了此前令 AI 頭疼的論文題型。GoodFin 創始人兼首席執行官 Anna Joo Fee 表示:

我認為這項技術絕對有未來改變整個行業的可能。

AI 模型全面突破 CFA 三級考試壁壘

兩年前的研究曾發現,AI 模型能夠通過 CFA 一級和二級考試,但在三級考試的論述題環節遭遇重大障礙。

最新研究證實,AI 技術的快速發展已經克服了這一關鍵瓶頸。

研究團隊對 23 個大型語言模型進行了全面測試,特別關注 AI 模型是否具備"專業金融決策所需的專業化、高風險分析推理能力",以此評估其在 CFA 三級模擬考試中處理選擇題和論文題的能力。

研究結果表明,在處理複雜金融問題時,推理模型的表現顯著優於傳統的非推理模型。特別是採用"思維鏈提示"技術的前沿推理模型成功通過了相關考試測試。

其中 Gemini 2.5 Pro 在論述題評分中獲得 3.44 分的最高成績,同時在綜合表現(選擇題和論述題)中以 2.1 分位居榜首。

值得注意的是,國產的 KIMI K2 模型在多選題中表現最佳,正確率高達 78.3%,超過谷歌的 Gemini 2.5 Pro 和 GPT-5。

研究採用了零樣本、自我一致性和自我發現三種提示策略,其中自我一致性策略取得 73.4% 的最佳表現評分。

在成本效益分析中,Llama 3.1 8B Instant 獲得 5468 的最佳成本效率評分,而 Palmyra Fin 以 0.3 秒的平均響應時間成為速度最快的模型。

儘管 AI 在標準化考試中表現出色,但業內專家認為完全替代人類金融專業人士仍存在侷限。Fee 強調:

諸如情境理解和意圖判斷等方面,機器目前還難以準確評估。這正是人類的優勢所在,能夠理解客户的肢體語言和各種暗示。