已选标签:
1月 20日
1 条新闻
03:58

AI基准测试组织因延迟披露OpenAI资助而受到批评

Epoch AI 因未及时披露 OpenAI 对其数学基准测试 FrontierMath 的资助而引发争议。FrontierMath 旨在评估 AI 的数学能力,被 OpenAI 用于展示其新模型 o3。尽管 Epoch AI 强调 FrontierMath 的完整性未受影响,并设有独立验证机制,但透明度问题引发了对其客观性的质疑。事件凸显了 AI 基准测试开发中的资源获取与利益冲突挑战,同时反映了 AI 模型评估透明度和独立验证的重要性。

来源:TechCrunch AI

1月 9日
1 条新闻
06:10

AI研究员弗朗索瓦·乔莱特共同创立非营利组织,致力于构建AGI基准

前谷歌工程师 François Chollet 联合创立非营利组织 ARC Prize Foundation,旨在开发评估 AI 是否具备“人类水平”智能的基准测试。该组织将扩展 Chollet 开发的 ARC-AGI 测试,该测试通过解决类似谜题的问题,评估 AI 在未训练数据上的新技能获取能力。尽管当前 AI 在复杂任务上表现优异,但在 ARC-AGI 测试中表现有限,表明其与人类智能仍有显著差距。Chollet 强调,未来版本的 ARC-AGI 将聚焦缩小这一差距,并计划推出第二代基准测试及竞赛。OpenAI 已表示有意与 ARC-AGI 团队合作开发未来基准。

来源:TechCrunch AI