
The big news is here! Llama 4 is embroiled in a ranking controversy: "internal employees" post accusations, and the evaluation version is alleged to be a special supply?

I'm PortAI, I can summarize articles.
Meta 新发布的 Llama 4 模型引发争议,内部员工指控其性能未达标,并称公司在训练后期通过混入测试数据来 “优化” 结果以达到目标。该员工因无法接受这种做法辞职,并要求不在技术报告中署名。用户反馈也显示 Llama 4 表现不佳,TechCrunch 质疑其测试版本的误导性。此事件引发了对 AI 研发诚信的广泛讨论。
新瓜,主角是昨天刚刚发布的 Meta 旗舰大模型——Llama 4。
内部爆料:性能不达标,压力下欲 “优化” 结果?
首先引爆讨论的是一篇来自 “一亩三分地” 论坛的帖子,发帖人自称是参与 Llama 4 训练的内部员工,并表示已因此辞职。

帖子内容信息量很大,主要说了几点:
-
1. 性能瓶颈: 尽管团队反复努力训练,Llama 4 的内部模型性能始终无法达到开源 SOTA(State-of-the-Art,顶尖水平)基准,差距明显。 -
2. “曲线救国” 策略: 公司领导层提出,在训练后期,将各种基准测试的 “测试集” 数据混入训练或微调数据中。这样做的目的很直接——在各项指标上达成目标,交出一份 “看起来很美” 的成绩单 -
3. Deadline 压力: 这个 “刷分” 任务有明确的时间线——4 月底。如果届时无法达成目标,后果可能很严重 -
4. 用户反馈不佳: Llama 4 发布后(帖子发布于模型刚发布时),X 和 Reddit 上已有不少用户反馈,实际测试效果非常糟糕 -
5. 学术底线与辞职: 发帖人表示,自己有学术背景,无法接受这种 “为了达标而污染测试数据” 的做法,因此提交了辞职,并明确要求不要将自己的名字写入 Llama 4 的技术报告 -
6. 高管动向(帖中提及): 帖子还提到,Meta 的 AI 副总裁(VP of AI)也因类似原因辞职。(博主注:此为帖子单方面说法,需注意辨别)
这篇帖子迅速引发了圈内关注,大家都在讨论这种做法是否违背了 AI 研发的基本诚信
这是后续,真实情况还有待于观察

外部观察:TechCrunch 质疑测试版本 “误导性”
无独有偶,知名科技媒体 TechCrunch 也发文,标题直指 Meta 新 AI 模型的性能测试 “有点误导人”。
TechCrunch 的文章主要聚焦于 Llama 4(即 Maverick)在著名的人类评估排行榜 LM Arena 上的表现。Maverick 确实取得了第二名的好成绩,但这背后似乎另有隐情:

-
1. 版本差异: Meta 提交给 LM Arena 进行测试评估的 Maverick 版本,和公开发布给开发者使用的版本,可能不是同一个 -
2. 官方标注: Meta 在发布公告和 Llama 官网上其实也提到了这一点。他们明确说明,用于 LM Arena 测试的是一个 “实验性的聊天版本”,或者标注为 “专门针对对话场景优化的 Llama 4 Maverick” -
3. “为榜单优化” 的问题: TechCrunch 指出,虽然 LM Arena 本身并非完美的评测工具,但过去 AI 公司通常不会(至少不公开承认)专门为了提升榜单排名而特供一个优化版本。Meta 这次的做法,相当于针对基准测试优化了一个版本去打榜,却给开发者提供了未经特别优化的 “基础版” -
4. 误导开发者: 这种操作会让开发者难以根据榜单排名准确预估模型在自己实际应用场景中的真实表现。基准测试虽然有局限,但本应提供一个相对公平的参考 -
5. 行为差异: X 平台上的研究人员也发现,公开下载的 Maverick 版本,和在 LM Arena 上测试的版本行为确实不同。榜单上的那个版本更喜欢用表情符号(emoji),回答也明显更啰嗦
一些 Llama 4 的实测
号称千万上下文的召回率,上下文的实际表现,远低于预期
Llama 4 Maverick 在 aider 多语言编码基准测试中得分为实测仅为 16%

本文来源:AI 寒武纪,原文标题:《大瓜来了!Llama 4 陷刷榜争议:“内部员工” 发帖控诉,测评版本被指特供?》
风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
