AI新闻 | 第2页 | goodux 好体验

标签筛选

已选标签:

1月 9日

1 条新闻

09:14

字节跳动开源 S T A R 视频超分模型：利用 T2V 技术实现高清修复

字节跳动开源 S T A R 视频超分模型：利用 T2V 技术实现高清修复

S T A R 是字节跳动开源的一个利用 T2V（Text-to-Video）模型对视频进行超分辨率的方法。无论是 AI 生成的视频还是现实中的视频，S T A R 都能进行高清修复。预训练模型（基于 I2VGen-XL 和 CogVideoX-5B）及推理代码现已发布，有兴趣的佬友可以自己试试。

来源：三花快讯

1月 8日

1 条新闻

09:43

英伟达开源 Cosmos 世界模型：助力机器人与自动驾驶数据生成

英伟达开源了 Cosmos 世界模型，这模型支持文生视频和文+视频生视频，主要应用于机器人和自动驾驶领域的大规模合成数据生成。

目前，英伟达已经开放了多个不同的预训练模型，这些模型均支持商业用途。佬友们也可以在线体验下，看看这个模型的实际效果如何。

来源：三花快讯

1月 6日

5 条新闻

11:26

谷歌 DeepMind 推 CAT4D：普通视频变 3D 大片，单视角视频也能转换多视角了

谷歌 DeepMind 联合哥伦比亚大学和加州大学圣地亚哥分校开发了 CAT4D AI 系统，能够将普通视频转化为动态 3D 场景。系统基于扩散模型，将单视角视频转换为多视角视图，用户可以从不同角度观看视频中的主体。
来源：AI工具集

来源：AI工具集

10:35

SHMT自监督层级化妆迁移模型代码开源，NeurIPS2024官方认证！

SHMT自监督层级化妆迁移模型代码开源，NeurIPS2024官方认证！

由阿里巴巴达摩院实习生孙朝阳等人开发的SHMT模型，采用隐式扩散模型实现自监督层级化妆迁移，已被NeurIPS2024接收。项目包含训练、测试代码及预训练模型，已开源并验证可正常训练和推理。此外，团队在CVPR2024、TNNLS2023和AAAI2022也有相关成果发布。代码链接：https://github.com/Snowfallingplum/SHMT

来源：GitHub

00:00

Create AI 开源 Ruyi-Mini-7B 图生视频模型，专为消费级 GPU 设计

Create AI （原图森未来）开源了Ruyi-Mini-7B图生视频模型。这款模型专为消费级 GPU 设计，支持生成 360p 和 720p 分辨率、最长 5 秒的视频。

据Create AI官网介绍，Create AI 似乎正在利用大模型技术开发 AAA 级开放世界游戏《金庸群侠传》。

来源：三花快讯

00:00

ebook2audiobook 2.0 发布：全新WebUI与 1000 种语言

ebook2audiobook 2.0 发布：全新WebUI与 1000 种语言

知名开源电子书转有声书项目ebook2audiobook 发布了 2.0 版本。新版本支持本地语音克隆与有声书生成，覆盖了 1000 种语言，并配备了全新的 WebUI 界面。

此外，安装脚本也得到了优化，使用更加便捷。想体验新功能的佬友，可以访问在线版本进行试用。

来源：三花快讯

00:00

TangoFlux：极速文本转音频生成模型

TangoFlux 是一个开源的极速文本转音频（TTA）生成模型，在单个 A40 GPU 上仅需 3.7 秒即可生成 30 秒的 44.1kHz 音频。佬友们可以在线体验看看，速度确实飞快，生成的质量也算还行。

来源：三花快讯

1月 4日

1 条新闻

00:00

生成式人工智能投资在2024年达到新高

2024 年生成式 AI 投资创历史新高，全球融资达 560 亿美元，同比增长 192%。OpenAI、Anthropic、xAI 等头部企业持续获得大额融资并推出创新产品。美国公司占据主导地位，但中国、欧洲等地也有 Moonshot AI、Mistral 等企业获得显著投资。生成式 AI 在编程助手、媒体创作等垂直领域竞争加剧，但技术挑战和高计算成本可能限制中小企业的持续创新。基础设施层企业（如数据中心）受益显著，预计全球 AI 数据中心年支出将达 2500 亿美元。未来，行业可能面临估值泡沫和技术瓶颈的双重挑战。

来源：TechCrunch AI

1月 2日

1 条新闻

00:00

创新插件VMix：大幅提升生成图像的美学质量

创新插件VMix：大幅提升生成图像的美学质量

字节跳动与中科大团队推出VMix，通过新颖的价值混合交叉注意力机制，显著提升扩散模型生成图像的美学质量。VMix能系统性增强图像的颜色、光线和构图等细节维度，弥合生成图像与现实美学之间的差距。该插件无需重新训练即可应用于社区模型，实验表明其效果优于现有方法，并兼容LoRA、ControlNet等模块。VMix通过分离文本提示中的内容描述和美学描述，优化去噪过程，从而在保持图像与文本对齐的同时，大幅提高视觉表现。

来源：字节跳动 & 中科大

1月 1日

1 条新闻

00:00

威尔·史密斯吃意大利面及其他在2024年走红的奇特AI基准测试

2024年，AI视频生成技术取得显著进展，Google Veo 2等模型成功实现逼真的Will Smith吃意大利面视频生成，成为社区热门基准。此外，AI在游戏设计（如Minecraft）和互动游戏（如Pictionary）中的应用也引发关注。尽管学术界存在更严谨的AI性能测试，但这些非正式基准因其娱乐性和易理解性而广受欢迎。专家指出，AI社区应更关注AI的实际下游影响，而非局限于狭窄领域的性能测试。未来，随着AI技术的复杂性和应用场景的扩展，如何将其转化为易于理解的营销信息仍是行业挑战。

来源：TechCrunch AI

12月 31日

5 条新闻

00:00

AI Game DevTools：一站式 AI 游戏开发资源导航

AI Game DevTools 是一份精心收集的与 AI 游戏开发相关的项目导航，涵盖了大模型、Agent、3D 资源、视频、动画等多个领域。作者们贴心地为所有工具列出了来源、简介、论文以及适用的游戏引擎，简直是游戏开发者的福音！如果你正在做游戏开发，不妨看看这些工具，说不定对你有帮助嗷。

来源：三花快讯

00:00

可灵AI API新增【虚拟试穿V1.5】和【对口型】

快手可灵AI（Kling）宣布API能力升级，推出虚拟试穿V1.5模型，支持单件及组合服装输入，能生成试衣视频。同时，新增对口型功能，可实现视频中人物口型与配音同步，提升视频真实感。这些升级将为电商、广告营销和泛娱乐行业带来新机遇，推动业务增长。
来源：可灵AI

来源：AI工具集

00:00

AnimateDiff 到 Runway：AI 视频生成技术的飞跃

大佬 @GerdeGotIt 最近展示了一个对比：两年前使用 AnimateDiff 技术制作的 AI 视频与如今使用 Runway 制作的效果。可以看到 AI 视频生成技术的进步。特别是在画面的一致性和稳定性方面，提升不是一点半点！

来源：三花快讯

00:00

OpenAI公布2025年将发布的技术产品：AGI、Agents、GPT-4o升级版

OpenAI首席执行官Sam Altman宣布，到2025年将发布包括AGI（通用人工智能）、智能体Agents、GPT-4o升级版在内的多项技术产品，以及其他改进，如更好的记忆存储、上下文窗口、成人模式、深度研究特色功能、Sora和个性化定制。
来源：第一财经

来源：AI工具集

00:00

Switti：生成速度超快的文本生成图像模型

Switti 是一个生成速度超快的文本生成图像模型，其性能优于现有的自回归模型，媲美现有的扩散模型，同时生成速度最高快7倍。

Switti 的论文早在5月份就已发布，近日，其模型终于开源，能够生成1024*1024的图片，速度超级快。你可以在在线演示中亲自感受其超快的生成速度。

来源：三花快讯

12月 30日

5 条新闻

00:00

腾讯开源 StereoCrafter：一键将普通视频转为 3D 视频

腾讯开源 StereoCrafter：一键将普通视频转为 3D 视频

StereoCrafter 是腾讯开源的一个强大模型，能够将任何普通视频转换为红蓝、VR 或左右格式的 3D 视频。

官方还演示了将生成的视频在 Apple Vision Pro 中播放的效果，展示了其在实际应用中的潜力。该模型现已在 Hugging Face 上开放，感兴趣的朋友可以亲自跑一下。

来源：三花快讯

00:00

支付宝「探一下」新一代AI视觉搜索产品，满足你的好奇心

支付宝推出新功能“探一下”，基于自研的多模态大模型技术，能够“用AI之眼探索万物”，提供快速、有用、趣味的生成式搜索服务。“探一下”提供三种核心服务：探知识、探灵感、探文本。可以根据自己的需求选择相应的服务，满足用户的好奇心。通过支付宝“扫一扫”界面或支小宝App中访问。
来源：支付宝

来源：AI工具集

00:00

爱诗科技PixVerse V3.5上线：5秒生成高清视频，动漫效果大幅提升

爱诗科技PixVerse V3.5上线：5秒生成高清视频，动漫效果大幅提升

爱诗科技宣布其核心产品PixVerse的V3.5版本正式上线，带来显著性能提升和新功能。新版本可在5秒内生成视频，增强运动控制力，支持多种动漫风格切换，满足个性化需求。视频质量提升至1080p高清，并实现首尾帧丝滑过渡，提升整体观感。此前，爱诗科技完成近3亿元A+轮融资，资金将用于技术研发、扩展算力及人才团队建设。

来源：AI Base

00:00

英伟达的下一步：为类人机器人提供动力

Nvidia 宣布将于 2025 年上半年推出新一代紧凑型计算机 Jetson Thor，专为人形机器人设计。这一举措标志着 Nvidia 在机器人领域的深入布局，旨在为全球数十万机器人制造商提供底层技术支持。Nvidia 副总裁 Deepu Talla 指出，这一战略得益于生成式 AI 模型的爆发式增长，以及利用模拟环境训练机器人的能力。此举也反映了 Nvidia 在 AI 芯片市场竞争加剧的背景下，通过机器人技术拓展业务版图的战略意图。

来源：TechCrunch AI

00:00

商汤科技推出 Large Motion Model：统一多模态运动生成大模型

商汤科技推出 Large Motion Model：统一多模态运动生成大模型

Large Motion Model 是商汤科技推出的统一多模态运动生成模型。这一创新模型以运动为核心，构建了一个多模态框架，将主流运动生成任务整合为一个通用模型。

用户只需输入描述，即可生成一段运动姿势视频。目前，该模型已完全开源，支持多模态输入进行控制。你们可以在在线演示亲自体验一下。

来源：三花快讯