AI新闻 | goodux 好体验

标签筛选

已选标签:

1月 20日

1 条新闻

03:58

AI基准测试组织因延迟披露OpenAI资助而受到批评

Epoch AI 因未及时披露 OpenAI 对其数学基准测试 FrontierMath 的资助而引发争议。FrontierMath 旨在评估 AI 的数学能力，被 OpenAI 用于展示其新模型 o3。尽管 Epoch AI 强调 FrontierMath 的完整性未受影响，并设有独立验证机制，但透明度问题引发了对其客观性的质疑。事件凸显了 AI 基准测试开发中的资源获取与利益冲突挑战，同时反映了 AI 模型评估透明度和独立验证的重要性。

来源：TechCrunch AI

1月 9日

1 条新闻

06:10

AI研究员弗朗索瓦·乔莱特共同创立非营利组织，致力于构建AGI基准

前谷歌工程师 François Chollet 联合创立非营利组织 ARC Prize Foundation，旨在开发评估 AI 是否具备“人类水平”智能的基准测试。该组织将扩展 Chollet 开发的 ARC-AGI 测试，该测试通过解决类似谜题的问题，评估 AI 在未训练数据上的新技能获取能力。尽管当前 AI 在复杂任务上表现优异，但在 ARC-AGI 测试中表现有限，表明其与人类智能仍有显著差距。Chollet 强调，未来版本的 ARC-AGI 将聚焦缩小这一差距，并计划推出第二代基准测试及竞赛。OpenAI 已表示有意与 ARC-AGI 团队合作开发未来基准。

来源：TechCrunch AI