智谱最新开源的 CogAgent-9B-20241220 模型,类似于 Claude Computer use,在多个方面实现了显著提升。
新版本在 GUI 感知、推理预测准确性、动作空间完善性以及任务的普适和泛化性上都有大幅进步。
此外,CogAgent 能够处理中英文双语的屏幕截图和语言交互,极大地扩展了其应用范围。官方演示中,展示了如何在 MacOS 上自动调用微信给朋友发消息以及通过邮箱发送邮件。不过,目前的操作速度还比较慢,且需要提前为 AI 打开相关窗口,在 AI 操作过程中人类无法介入。
主题测试文章,只做测试使用。发布者:jovi,转转请注明出处:https://goodux.cn/archives/ai-news/%e6%99%ba%e8%b0%b1%e5%bc%80%e6%ba%90-cogagent-9b-20241220%ef%bc%9a%e6%8f%90%e5%8d%87-gui-%e6%84%9f%e7%9f%a5%e4%b8%8e%e5%a4%9a%e8%af%ad%e8%a8%80%e4%ba%a4%e4%ba%92%e8%83%bd%e5%8a%9b