Latest Global Model Rankings: Alibaba Qwen2.5-Max surpasses DeepSeek V3

在最新的全球大模型榜單中，阿里的最新大語言模型 Qwen2.5-Max 排名第 7，領先於 DeepSeek V3、O1-Mini 和 Claude-3.5-Sonnet 等頂級專有大語言模型，在數學和編程方面排名第一，在處理複雜任務的硬提示（hard prompts）方面排名第二。

競賽升温！最新全球大模型榜單發佈，阿里新模型超越 DeepSeek V3。

當地時間 2 月 4 日，在全球知名的 AI 模型評測平台 Chatbot Arena 公佈了最新一期的榜單。其中，阿里通義千問團隊的最新大語言模型 Qwen2.5-Ma 取得了優異成績，在總體排名中躋身第 7，領先於 DeepSeek V3、O1-Mini 和 Claude-3.5-Sonnet 等頂級專有大語言模型。

分別看打分項，Qwen2.5-Max 在技術領域表現尤為出色，在數學和編程方面排名第一，在處理複雜任務的硬提示（hard prompts）方面排名第二。

繼 DeepSeek 之後，Qwen2.5-Max 的發佈是中國 AI 陣營在高性能、低成本技術路線上的又一重要突破。市場人士此前分析稱，外界此前過度聚焦 DeepSeek，卻忽視了包括阿里通義在內的中國 AI 整體性追趕。如果阿里 Qwen-2.5-max 的性能確實展現出預期水平，加之其低成本優勢與完整雲生態，或引發 DeepSeek 之後的中國 AI 資產新一輪重估。

1 月 29 日凌晨，阿里通義千問團隊悄悄上線 Qwen2.5-Max，該模型一經發布便在 MMLU-Pro、LiveCodeBench、LiveBench 和 Arena-Hard 等主要基準測試中取得領先成績，展現出與全球頂級模型比肩的性能。

據介紹，最新的 Qwen2.5-Max 採用了超大規模的專家混合（MoE）模型架構，預訓練數據量超過 20 萬億個 token，運用監督微調（SFT）和人類反饋強化學習（RLHF）技術進行優化，在知識、編程、通用能力和人類對齊等方面表現優異。

目前，全球開發者和企業可通過阿里雲的生成式 AI 開發平台 Model Studio 訪問 Qwen2.5-Max。

Qwen2.5-Max 發佈後，迅速吸引了海內外用户和開發者的大量關注。

有網友生動地概括，Qwen2.5-Max 相當於 “中文版的 ChatGPT”，但水平要比後者 “高得多”。