新论文发现人工智能在历史方面表现不佳

• 2025年1月19日下午11:01 • • 阅读 0

最新研究表明，尽管大语言模型（LLMs）在编程等任务中表现出色，但在高级历史考试中表现欠佳。研究团队使用 Hist-LLM 基准测试了 GPT-4、Llama 和 Gemini 等模型，发现 GPT-4 Turbo 的准确率仅为 46%。模型在处理复杂历史问题时，倾向于从显性数据中推断，难以检索到更隐晦的历史知识。此外，模型在特定地区（如撒哈拉以南非洲）的表现较差，暗示训练数据可能存在偏差。研究指出，LLMs 在历史研究领域仍需改进，但未来有望辅助历史学家，特别是在扩展数据覆盖和增加问题复杂性方面。

来源：TechCrunch AI

主题测试文章，只做测试使用。发布者：，转转请注明出处：https://goodux.cn/archives/ai-news/%e6%96%b0%e8%ae%ba%e6%96%87%e5%8f%91%e7%8e%b0%e4%ba%ba%e5%b7%a5%e6%99%ba%e8%83%bd%e5%9c%a8%e5%8e%86%e5%8f%b2%e6%96%b9%e9%9d%a2%e8%a1%a8%e7%8e%b0%e4%b8%8d%e4%bd%b3

新论文发现人工智能在历史方面表现不佳

相关推荐

SWOT分析模型

产品类法则定律

其他类

麦肯锡7S模型

第一性原理

南塘十三条