最新研究表明,尽管大语言模型(LLMs)在编程等任务中表现出色,但在高级历史考试中表现欠佳。研究团队使用 Hist-LLM 基准测试了 GPT-4、Llama 和 Gemini 等模型,发现 GPT-4 Turbo 的准确率仅为 46%。模型在处理复杂历史问题时,倾向于从显性数据中推断,难以检索到更隐晦的历史知识。此外,模型在特定地区(如撒哈拉以南非洲)的表现较差,暗示训练数据可能存在偏差。研究指出,LLMs 在历史研究领域仍需改进,但未来有望辅助历史学家,特别是在扩展数据覆盖和增加问题复杂性方面。
主题测试文章,只做测试使用。发布者:,转转请注明出处:https://goodux.cn/archives/ai-news/%e6%96%b0%e8%ae%ba%e6%96%87%e5%8f%91%e7%8e%b0%e4%ba%ba%e5%b7%a5%e6%99%ba%e8%83%bd%e5%9c%a8%e5%8e%86%e5%8f%b2%e6%96%b9%e9%9d%a2%e8%a1%a8%e7%8e%b0%e4%b8%8d%e4%bd%b3