AI新闻 | 第5页 | goodux 好体验

标签筛选

已选标签:

12月 31日

10 条新闻

00:00

华佗 GPT-o1：专为医学推理设计的开源 LLM

华佗 GPT-o1：专为医学推理设计的开源 LLM

华佗 GPT-o1 是香港中文大学深圳分校推出的专为医学推理设计的医学 LLM。基于 Qwen2.5 的版本支持中英文双语，并且完全开源，包括数据集。当然，如果你更喜欢纯英文模型，也有基于 LLaMA-3.1 的版本，可以使用 vllm 或 Sglang 等工具进行部署。

来源：三花快讯

00:00

Switti：生成速度超快的文本生成图像模型

Switti 是一个生成速度超快的文本生成图像模型，其性能优于现有的自回归模型，媲美现有的扩散模型，同时生成速度最高快7倍。

Switti 的论文早在5月份就已发布，近日，其模型终于开源，能够生成1024*1024的图片，速度超级快。你可以在在线演示中亲自感受其超快的生成速度。

来源：三花快讯

00:00

稚晖君又开源！全球首个大规模真实场景机器人数据集AgiBot World发布

稚晖君又开源！全球首个大规模真实场景机器人数据集AgiBot World发布

稚晖君在3个月内第三次开源，推出全球首个基于全域真实场景、全能硬件平台的机器人数据集AgiBot World。该项目由智元机器人联合上海AI Lab等机构发布，涵盖80余种日常生活技能，数据规模比现有数据集高出10倍，场景覆盖面扩大100倍，质量达到工业级标准。数据集包含家居、餐饮、工业等多个核心场景，支持机器人完成复杂任务如插内存条、整理洗碗机和双臂协作搬运等。GitHub和抱抱脸已开放下载。

来源：量子位

00:00

AnimateDiff 到 Runway：AI 视频生成技术的飞跃

大佬 @GerdeGotIt 最近展示了一个对比：两年前使用 AnimateDiff 技术制作的 AI 视频与如今使用 Runway 制作的效果。可以看到 AI 视频生成技术的进步。特别是在画面的一致性和稳定性方面，提升不是一点半点！

来源：三花快讯

00:00

智谱正式发布深度推理模型：GLM-Zero 的初代版本 GLM-Zero-Preview

智谱AI在2024年尾发布 GLM-Zero 推理模型，初代版本GLM-Zero-Preview已上线，基于扩展强化学习技术，提升数理逻辑、代码处理和深度推理能力。模型在AIME 2024、MATH500和LiveCodeBench评测中表现优异，与OpenAI-o1-Preview相当。用户可在智谱清言-“Zero推理模型”智能体免费使用，开发者可通过API调用体验。
来源：AI工具集

来源：AI工具集

00:00

OpenAI公布2025年将发布的技术产品：AGI、Agents、GPT-4o升级版

OpenAI首席执行官Sam Altman宣布，到2025年将发布包括AGI（通用人工智能）、智能体Agents、GPT-4o升级版在内的多项技术产品，以及其他改进，如更好的记忆存储、上下文窗口、成人模式、深度研究特色功能、Sora和个性化定制。
来源：第一财经

来源：AI工具集

00:00

大模型的2024年：我们对AI的发展脱敏了

2024年AI领域发展迅速，大模型更实用但不再惊艳，端侧模型和混合专家技术（MoE）降低成本，多模态研究成新方向。AI搜索、语音交互、视频技术商业化挑战中前行，AI Agent开发门槛降低。AI硬件百花齐放，AI眼镜异军突起。AI游戏从辅助工具成为游戏一部分。中国AI人才梯队规模质量仅次于美国，期待在AI浪潮中领先。
来源：新硅NewGeek

来源：AI工具集

00:00

字节跳动似乎在规避美国限制购买英伟达芯片

字节跳动计划在2025年斥资70亿美元购买英伟达芯片，以支持其AI业务发展，包括其热门AI聊天机器人“豆包”。尽管美国对中国实施AI芯片出口限制，字节跳动通过将芯片存储于东南亚数据中心规避了直接限制。此举凸显了全球AI竞赛中算力的重要性，以及企业在应对政策限制时的创新策略。字节跳动的投资将加速其在生成式AI、大语言模型等领域的研发，进一步推动AI技术在智能助手等应用场景的落地。

来源：TechCrunch AI

00:00

从AI代理到企业预算，20位风险投资家分享他们对2025年企业技术的预测

2025年企业AI应用展望：尽管AI被视为工业革命以来最大的技术突破，企业采用速度仍较慢。专家预测，随着高质量数据需求的增加，AI将从实验阶段转向大规模部署。重点关注领域包括：AI代码代理用于应用现代化、高成本行业自动化（如会计和法律服务）、以及企业销售周期和定价模型的变化。投资趋势聚焦于企业韧性、数据主权服务和任务特定模型。技术发展将探索替代Transformer的解决方案，以减少LLM训练和生产的计算需求。企业技术价值将从单纯驱动收入或降低成本，转向同时减少业务摩擦。

来源：TechCrunch AI

00:00

黑芝麻智能发布华山A2000家族芯片平台，打造全场景通识智驾标杆

黑芝麻智能发布华山A2000家族芯片平台，针对下一代AI模型设计，提供高算力、高性能，支持全场景通识智驾。A2000家族包括A2000 Lite、A2000和A2000 Pro，满足不同自动驾驶需求。集成领先CPU、DSP、GPU等，算力是主流旗舰芯片的4倍，原生支持Transformer模型，推动智能驾驶技术发展。
来源：黑芝麻智能

来源：AI工具集

12月 30日

9 条新闻

00:00

PixVerse V3.5 正式上线，模型全面升级，10秒极速生成

爱诗科技宣布PixVerse V3.5版本正式上线，新版本在Turbo模式下10秒内即可生成高质量视频，保持行业领先的语义理解和细节表现力。动漫生成效果显著提升，支持通过文生视频描述特定风格或上传图片生成动漫效果。新增首尾帧功能，激发创作灵感。
来源：爱诗科技 AIsphere

来源：AI工具集

00:00

腾讯开源 StereoCrafter：一键将普通视频转为 3D 视频

腾讯开源 StereoCrafter：一键将普通视频转为 3D 视频

StereoCrafter 是腾讯开源的一个强大模型，能够将任何普通视频转换为红蓝、VR 或左右格式的 3D 视频。

官方还演示了将生成的视频在 Apple Vision Pro 中播放的效果，展示了其在实际应用中的潜力。该模型现已在 Hugging Face 上开放，感兴趣的朋友可以亲自跑一下。

来源：三花快讯

00:00

讯飞医疗成功上市，成为医疗大模型第一股！

讯飞医疗科技股份有限公司（股票代码：02506.HK）于2024年12月30日在香港联交所主板成功上市，标志着医疗大模型领域的第一股诞生。作为中国医疗人工智能行业的领导者，讯飞医疗在基层医疗服务、医院服务、患者服务和智慧影像等方面均取得显著成就，致力于让医疗服务更便捷，为人类健康未来奋斗。
来源：科大讯飞

来源：AI工具集

00:00

Aria-UI：领先的 GUI 多模态模型，AndroidWorld 基准测试第一

Aria-UI 是一个专为 GUI 基础设计的大型多模态模型，类似于 Claude Computer use。它无需 HTML 或 AXTree 输入，采用纯视觉方法。作为 Moe 模型其速度也非常快。

在 AndroidWorld 基准测试中以 44.8% 的成功率排名第一。

官方提供了一个在线演示，确实速度挺快的，不过该技术是底层模型，没有封装成可交互的应用。

来源：三花快讯

00:00

支付宝「探一下」新一代AI视觉搜索产品，满足你的好奇心

支付宝推出新功能“探一下”，基于自研的多模态大模型技术，能够“用AI之眼探索万物”，提供快速、有用、趣味的生成式搜索服务。“探一下”提供三种核心服务：探知识、探灵感、探文本。可以根据自己的需求选择相应的服务，满足用户的好奇心。通过支付宝“扫一扫”界面或支小宝App中访问。
来源：支付宝

来源：AI工具集

00:00

爱诗科技PixVerse V3.5上线：5秒生成高清视频，动漫效果大幅提升

爱诗科技PixVerse V3.5上线：5秒生成高清视频，动漫效果大幅提升

爱诗科技宣布其核心产品PixVerse的V3.5版本正式上线，带来显著性能提升和新功能。新版本可在5秒内生成视频，增强运动控制力，支持多种动漫风格切换，满足个性化需求。视频质量提升至1080p高清，并实现首尾帧丝滑过渡，提升整体观感。此前，爱诗科技完成近3亿元A+轮融资，资金将用于技术研发、扩展算力及人才团队建设。

来源：AI Base

00:00

英伟达的下一步：为类人机器人提供动力

Nvidia 宣布将于 2025 年上半年推出新一代紧凑型计算机 Jetson Thor，专为人形机器人设计。这一举措标志着 Nvidia 在机器人领域的深入布局，旨在为全球数十万机器人制造商提供底层技术支持。Nvidia 副总裁 Deepu Talla 指出，这一战略得益于生成式 AI 模型的爆发式增长，以及利用模拟环境训练机器人的能力。此举也反映了 Nvidia 在 AI 芯片市场竞争加剧的背景下，通过机器人技术拓展业务版图的战略意图。

来源：TechCrunch AI

00:00

商汤科技推出 Large Motion Model：统一多模态运动生成大模型

商汤科技推出 Large Motion Model：统一多模态运动生成大模型

Large Motion Model 是商汤科技推出的统一多模态运动生成模型。这一创新模型以运动为核心，构建了一个多模态框架，将主流运动生成任务整合为一个通用模型。

用户只需输入描述，即可生成一段运动姿势视频。目前，该模型已完全开源，支持多模态输入进行控制。你们可以在在线演示亲自体验一下。

来源：三花快讯

00:00

智谱开源 CogAgent-9B-20241220：提升 GUI 感知与多语言交互能力

智谱最新开源的 CogAgent-9B-20241220 模型，类似于 Claude Computer use，在多个方面实现了显著提升。

新版本在 GUI 感知、推理预测准确性、动作空间完善性以及任务的普适和泛化性上都有大幅进步。

此外，CogAgent 能够处理中英文双语的屏幕截图和语言交互，极大地扩展了其应用范围。官方演示中，展示了如何在 MacOS 上自动调用微信给朋友发消息以及通过邮箱发送邮件。不过，目前的操作速度还比较慢，且需要提前为 AI 打开相关窗口，在 AI 操作过程中人类无法介入。

来源：三花快讯

12月 29日

1 条新闻

00:00

谷歌CEO表示，AI模型Gemini将是公司2025年的“最大重点”

Google CEO Sundar Pichai 强调 2025 年将是公司 AI 发展的关键年，重点在于加速 Gemini 模型的规模化应用，特别是在消费者领域。Pichai 承认 Google 在 AI 领域仍需追赶，并指出 Gemini 虽具备强劲势头，但需在 2025 年进一步缩小差距，确立领导地位。这一战略反映了科技巨头在 AI 领域的激烈竞争，以及大语言模型在商业落地和技术创新中的核心作用。

来源：TechCrunch AI

« 上一页
1
…
3
4
5