1月
20日
5 条新闻
16:33
社交平台 X 推出垂直视频专区,利用 AI 驱动的推荐算法优化用户体验。此举旨在填补 TikTok 等应用在美国市场的空缺,通过深度学习技术提升视频内容的分发效率和用户粘性。X 此前已推出独立电视应用,显示其在视频领域的持续布局。随着 Meta 等竞争对手推出类似功能,AI 驱动的视频推荐和编辑工具正成为社交平台竞争的关键技术。未来,多模态模型和个性化推荐算法的进一步融合将推动视频内容生态的智能化发展。
13:02
Bluesky推出垂直视频定制信息流
Bluesky 推出垂直视频定制 feed,利用其去中心化协议 AT Protocol 支持开发者构建 TikTok 替代应用,如 Tik.Blue 和 Skylight.Social。此举展示了 AI 驱动的个性化推荐技术在社交媒体中的应用,同时反映了去中心化社交平台的崛起。随着 TikTok 相关争议,Bluesky 用户增长至 2800 万,凸显了 AI 在内容分发和用户体验优化中的关键作用。Meta 和 X 也推出类似功能,表明 AI 驱动的视频内容竞争加剧。
11:23
黑森林实验室推出 FLUX Pro Finetuning API:轻松定制你的图像模型
黑森林实验室(Black Forest Labs)最新发布的 FLUX Pro Finetuning API,让任何人都能轻松使用自己的图片来定制 FLUX Pro 模型。 这个 API 的亮点在于它的易用性和灵活性,最简单的例子就是你可以把你的 logo 融入生成的图像中,实现营销和推广。想了解更多详情,可以查看官方博客。
11:23
MangaNinja:开源线稿上色工具
MangaNinja 是一款创新的开源线稿上色工具,它允许用户通过输入线稿和参考图片来生成与参考图一致的颜色。 该工具支持多角色草图参考多张图片和单角色草图参考多张图片。 佬们可以看下视频演示,感受下网球王子版的智爷。此外,这里还有个在线 Demo。
01:53
TikTok 恢复在美国的服务
TikTok 在美国的服务中断事件凸显了 AI 技术在跨境数据安全和政策合规中的关键作用。作为依赖 AI 推荐算法的短视频平台,TikTok 的恢复运营依赖于政策明确性和技术基础设施的稳定性。事件反映了 AI 应用在全球化部署中面临的法律风险和算力保障挑战,同时也揭示了 AI 技术在中小企业赋能和用户行为分析中的商业价值。未来,AI 平台的可持续运营将更加依赖于技术创新与政策环境的协同发展。
1月
19日
1 条新闻
05:20
Perplexity AI 提交与 TikTok 合并的投标
Perplexity AI 提出与 TikTok 美国业务合并的提案,旨在通过整合 TikTok 的视频内容增强其 AI 搜索引擎的多模态能力。此举反映了 AI 技术在视频内容理解和搜索领域的应用扩展,同时凸显了 AI 企业在数据获取和商业落地中的战略布局。尽管面临监管挑战,Perplexity 的创新合并模式可能为 AI 与社交媒体融合开辟新路径,推动多模态 AI 技术的进一步发展。
1月
15日
1 条新闻
15:00
Synthesia以21亿美元估值为其B2B人工智能视频平台筹集1.8亿美元
Synthesia 凭借其高度逼真的 AI 虚拟人技术,在企业级视频生成领域取得显著进展,已服务 60,000 家企业,用户达 100 万。最新完成 1.8 亿美元 D 轮融资,估值达 21 亿美元。公司计划扩展亚太市场,并持续优化虚拟人技术,包括提升动作真实性、环境适应性和交互能力。Synthesia 依赖第三方大语言模型和语音技术,专注于产品自研,避免并购。AI 视频功能日益普及,Synthesia 致力于成为企业视频交互的首选平台,同时面临 AI 能耗、版权和伦理等挑战。
1月
13日
3 条新闻
09:47
快手 Kling APP 登陆美区 App Store,安卓版即将推出
Kling APP 现已正式上架美区 App Store,安卓版本也即将上线。
简单体验了一下,和 Web 版本差不多,支持 kolors 1.5 生成图片和 kling 1.6 生成图生视频、文生视频。
09:47
xAI 发布 Grok iOS 应用,支持图像生成与实时数据访问
Grok iOS App 现已上线美区 App Store,支持生成图像和对话。用户需要使用 X 账号登录,以实时访问 X 和 Web 数据。
系统版本要求较高,需更新至 iOS 17 才能安装,如果你在用巨魔啥的就无缘了。安卓版本即将推出。
09:47
Adobe FaceLift:单张照片生成高保真 3D 头部模型
FaceLift 是 Adobe 最新发布的一项技术,仅需一张人脸照片,就能快速生成高保真的 3D 头部模型。
该技术首先利用扩散模型从单张脸部照片生成侧面和背面的视图,然后通过 GS-LRM 重建器生成 3D 高斯样条表示,实现全头新视角的合成。
此外,FaceLift 还能处理视频输入,进行 4D 合成,并与 2D 动画技术结合,实现 3D 面部动画。
从官网的一些交互式案例来看,效果还不错,不过不能放大看,恐怖谷效应拉满了。目前这项技术还没有开源,关注我为你持续跟进。
1月
9日
3 条新闻
09:14
NeuralSVG:文本生成可编辑矢量图形的创新工具
NeuralSVG 是一款创新的工具,能够根据文本提示生成有序且可编辑的矢量图形。通过简化和分层 SVG 输出,NeuralSVG 解决了传统 SVG 生成结构过于复杂、难以二次编辑的问题。
官方展示的效果非常出色,生成的 SVG 文件不仅结构清晰,还支持分层编辑,极大地方便了设计师和开发者。目前,NeuralSVG 尚未开源,但我会持续跟进最新动态,第一时间为大家带来更新。关注我,不错过任何重要信息!
09:14
Adobe 发布 TransPixar:生成透明背景视频的创新技术
TransPixar 是 Adobe 最新发布的一项创新技术,能够通过文本和图像生成透明背景的视频。
不仅支持创建烟雾和反射等透明元素,还提供了高度逼真的视觉效果。可以看看演示视频,效果相当不错。也可以在 Hugging Face 体验在线版本,不过在线版限制了帧率和推理步骤。代码是开源的,有兴趣的可以直接本地部署。
09:14
字节跳动开源 S T A R 视频超分模型:利用 T2V 技术实现高清修复
S T A R 是字节跳动开源的一个利用 T2V(Text-to-Video)模型对视频进行超分辨率的方法。无论是 AI 生成的视频还是现实中的视频,S T A R 都能进行高清修复。预训练模型(基于 I2VGen-XL 和 CogVideoX-5B)及推理代码现已发布,有兴趣的佬友可以自己试试。
1月
8日
2 条新闻
23:31
微软在用户投诉图像质量下降后回退其必应图像生成模型
微软在 Bing Image Creator 中升级了基于 OpenAI DALL-E 3 的 AI 图像生成模型(PR16),承诺提升生成速度与质量,但用户反馈图像质量显著下降,导致微软决定回滚至旧版本(PR13)。此次事件凸显了 AI 模型在真实场景中的评估挑战,内部基准测试与用户感知存在偏差。同时,这也反映了多模态生成模型在细节与真实性优化上的技术瓶颈,以及企业在模型迭代中平衡性能与用户体验的复杂性。
09:43
英伟达开源 Cosmos 世界模型:助力机器人与自动驾驶数据生成
英伟达开源了 Cosmos 世界模型,这模型支持文生视频和文+视频生视频,主要应用于机器人和自动驾驶领域的大规模合成数据生成。
目前,英伟达已经开放了多个不同的预训练模型,这些模型均支持商业用途。佬友们也可以在线体验下,看看这个模型的实际效果如何。
1月
6日
2 条新闻
11:26
谷歌 DeepMind 推 CAT4D:普通视频变 3D 大片,单视角视频也能转换多视角了
谷歌 DeepMind 联合哥伦比亚大学和加州大学圣地亚哥分校开发了 CAT4D AI 系统,能够将普通视频转化为动态 3D 场景。系统基于扩散模型,将单视角视频转换为多视角视图,用户可以从不同角度观看视频中的主体。
来源:AI工具集
来源:AI工具集
00:00
Create AI 开源 Ruyi-Mini-7B 图生视频模型,专为消费级 GPU 设计
Create AI (原图森未来)开源了Ruyi-Mini-7B图生视频模型。这款模型专为消费级 GPU 设计,支持生成 360p 和 720p 分辨率、最长 5 秒的视频。
据Create AI官网介绍,Create AI 似乎正在利用大模型技术开发 AAA 级开放世界游戏《金庸群侠传》。
1月
2日
2 条新闻
00:00
创新插件VMix:大幅提升生成图像的美学质量
字节跳动与中科大团队推出VMix,通过新颖的价值混合交叉注意力机制,显著提升扩散模型生成图像的美学质量。VMix能系统性增强图像的颜色、光线和构图等细节维度,弥合生成图像与现实美学之间的差距。该插件无需重新训练即可应用于社区模型,实验表明其效果优于现有方法,并兼容LoRA、ControlNet等模块。VMix通过分离文本提示中的内容描述和美学描述,优化去噪过程,从而在保持图像与文本对齐的同时,大幅提高视觉表现。
00:00
字节发布 VMix:提升扩散模型生图美学质量
VMix 是字节发布的一项提升扩散模型生图美学的技术。它能够在颜色、光照、构图等细粒度维度上更精准地遵循提示词,同时还能兼容原有的 LoRA、ControlNet 和 IPAdapter。图片里演示的是对 SDXL 模型的增强,不过,VMix 现在还没有开源,关注我为你持续跟进。
1月
1日
1 条新闻
00:00
威尔·史密斯吃意大利面及其他在2024年走红的奇特AI基准测试
2024年,AI视频生成技术取得显著进展,Google Veo 2等模型成功实现逼真的Will Smith吃意大利面视频生成,成为社区热门基准。此外,AI在游戏设计(如Minecraft)和互动游戏(如Pictionary)中的应用也引发关注。尽管学术界存在更严谨的AI性能测试,但这些非正式基准因其娱乐性和易理解性而广受欢迎。专家指出,AI社区应更关注AI的实际下游影响,而非局限于狭窄领域的性能测试。未来,随着AI技术的复杂性和应用场景的扩展,如何将其转化为易于理解的营销信息仍是行业挑战。