1月
20日
3 条新闻
16:33
社交平台 X 推出垂直视频专区,利用 AI 驱动的推荐算法优化用户体验。此举旨在填补 TikTok 等应用在美国市场的空缺,通过深度学习技术提升视频内容的分发效率和用户粘性。X 此前已推出独立电视应用,显示其在视频领域的持续布局。随着 Meta 等竞争对手推出类似功能,AI 驱动的视频推荐和编辑工具正成为社交平台竞争的关键技术。未来,多模态模型和个性化推荐算法的进一步融合将推动视频内容生态的智能化发展。
13:02
Bluesky推出垂直视频定制信息流
Bluesky 推出垂直视频定制 feed,利用其去中心化协议 AT Protocol 支持开发者构建 TikTok 替代应用,如 Tik.Blue 和 Skylight.Social。此举展示了 AI 驱动的个性化推荐技术在社交媒体中的应用,同时反映了去中心化社交平台的崛起。随着 TikTok 相关争议,Bluesky 用户增长至 2800 万,凸显了 AI 在内容分发和用户体验优化中的关键作用。Meta 和 X 也推出类似功能,表明 AI 驱动的视频内容竞争加剧。
01:53
TikTok 恢复在美国的服务
TikTok 在美国的服务中断事件凸显了 AI 技术在跨境数据安全和政策合规中的关键作用。作为依赖 AI 推荐算法的短视频平台,TikTok 的恢复运营依赖于政策明确性和技术基础设施的稳定性。事件反映了 AI 应用在全球化部署中面临的法律风险和算力保障挑战,同时也揭示了 AI 技术在中小企业赋能和用户行为分析中的商业价值。未来,AI 平台的可持续运营将更加依赖于技术创新与政策环境的协同发展。
1月
19日
1 条新闻
05:20
Perplexity AI 提交与 TikTok 合并的投标
Perplexity AI 提出与 TikTok 美国业务合并的提案,旨在通过整合 TikTok 的视频内容增强其 AI 搜索引擎的多模态能力。此举反映了 AI 技术在视频内容理解和搜索领域的应用扩展,同时凸显了 AI 企业在数据获取和商业落地中的战略布局。尽管面临监管挑战,Perplexity 的创新合并模式可能为 AI 与社交媒体融合开辟新路径,推动多模态 AI 技术的进一步发展。
1月
15日
1 条新闻
15:00
Synthesia以21亿美元估值为其B2B人工智能视频平台筹集1.8亿美元
Synthesia 凭借其高度逼真的 AI 虚拟人技术,在企业级视频生成领域取得显著进展,已服务 60,000 家企业,用户达 100 万。最新完成 1.8 亿美元 D 轮融资,估值达 21 亿美元。公司计划扩展亚太市场,并持续优化虚拟人技术,包括提升动作真实性、环境适应性和交互能力。Synthesia 依赖第三方大语言模型和语音技术,专注于产品自研,避免并购。AI 视频功能日益普及,Synthesia 致力于成为企业视频交互的首选平台,同时面临 AI 能耗、版权和伦理等挑战。
1月
13日
2 条新闻
09:47
Adobe FaceLift:单张照片生成高保真 3D 头部模型
FaceLift 是 Adobe 最新发布的一项技术,仅需一张人脸照片,就能快速生成高保真的 3D 头部模型。
该技术首先利用扩散模型从单张脸部照片生成侧面和背面的视图,然后通过 GS-LRM 重建器生成 3D 高斯样条表示,实现全头新视角的合成。
此外,FaceLift 还能处理视频输入,进行 4D 合成,并与 2D 动画技术结合,实现 3D 面部动画。
从官网的一些交互式案例来看,效果还不错,不过不能放大看,恐怖谷效应拉满了。目前这项技术还没有开源,关注我为你持续跟进。
09:47
快手 Kling APP 登陆美区 App Store,安卓版即将推出
Kling APP 现已正式上架美区 App Store,安卓版本也即将上线。
简单体验了一下,和 Web 版本差不多,支持 kolors 1.5 生成图片和 kling 1.6 生成图生视频、文生视频。
1月
9日
2 条新闻
09:14
Adobe 发布 TransPixar:生成透明背景视频的创新技术
TransPixar 是 Adobe 最新发布的一项创新技术,能够通过文本和图像生成透明背景的视频。
不仅支持创建烟雾和反射等透明元素,还提供了高度逼真的视觉效果。可以看看演示视频,效果相当不错。也可以在 Hugging Face 体验在线版本,不过在线版限制了帧率和推理步骤。代码是开源的,有兴趣的可以直接本地部署。
09:14
字节跳动开源 S T A R 视频超分模型:利用 T2V 技术实现高清修复
S T A R 是字节跳动开源的一个利用 T2V(Text-to-Video)模型对视频进行超分辨率的方法。无论是 AI 生成的视频还是现实中的视频,S T A R 都能进行高清修复。预训练模型(基于 I2VGen-XL 和 CogVideoX-5B)及推理代码现已发布,有兴趣的佬友可以自己试试。
1月
8日
1 条新闻
09:43
英伟达开源 Cosmos 世界模型:助力机器人与自动驾驶数据生成
英伟达开源了 Cosmos 世界模型,这模型支持文生视频和文+视频生视频,主要应用于机器人和自动驾驶领域的大规模合成数据生成。
目前,英伟达已经开放了多个不同的预训练模型,这些模型均支持商业用途。佬友们也可以在线体验下,看看这个模型的实际效果如何。
1月
6日
2 条新闻
11:26
谷歌 DeepMind 推 CAT4D:普通视频变 3D 大片,单视角视频也能转换多视角了
谷歌 DeepMind 联合哥伦比亚大学和加州大学圣地亚哥分校开发了 CAT4D AI 系统,能够将普通视频转化为动态 3D 场景。系统基于扩散模型,将单视角视频转换为多视角视图,用户可以从不同角度观看视频中的主体。
来源:AI工具集
来源:AI工具集
00:00
Create AI 开源 Ruyi-Mini-7B 图生视频模型,专为消费级 GPU 设计
Create AI (原图森未来)开源了Ruyi-Mini-7B图生视频模型。这款模型专为消费级 GPU 设计,支持生成 360p 和 720p 分辨率、最长 5 秒的视频。
据Create AI官网介绍,Create AI 似乎正在利用大模型技术开发 AAA 级开放世界游戏《金庸群侠传》。
1月
1日
1 条新闻
00:00
威尔·史密斯吃意大利面及其他在2024年走红的奇特AI基准测试
2024年,AI视频生成技术取得显著进展,Google Veo 2等模型成功实现逼真的Will Smith吃意大利面视频生成,成为社区热门基准。此外,AI在游戏设计(如Minecraft)和互动游戏(如Pictionary)中的应用也引发关注。尽管学术界存在更严谨的AI性能测试,但这些非正式基准因其娱乐性和易理解性而广受欢迎。专家指出,AI社区应更关注AI的实际下游影响,而非局限于狭窄领域的性能测试。未来,随着AI技术的复杂性和应用场景的扩展,如何将其转化为易于理解的营销信息仍是行业挑战。
12月
31日
3 条新闻
00:00
可灵AI API新增【虚拟试穿V1.5】和【对口型】
快手可灵AI(Kling)宣布API能力升级,推出虚拟试穿V1.5模型,支持单件及组合服装输入,能生成试衣视频。同时,新增对口型功能,可实现视频中人物口型与配音同步,提升视频真实感。这些升级将为电商、广告营销和泛娱乐行业带来新机遇,推动业务增长。
来源:可灵AI
来源:可灵AI
00:00
AI Game DevTools:一站式 AI 游戏开发资源导航
AI Game DevTools 是一份精心收集的与 AI 游戏开发相关的项目导航,涵盖了大模型、Agent、3D 资源、视频、动画等多个领域。作者们贴心地为所有工具列出了来源、简介、论文以及适用的游戏引擎,简直是游戏开发者的福音!如果你正在做游戏开发,不妨看看这些工具,说不定对你有帮助嗷。
00:00
AnimateDiff 到 Runway:AI 视频生成技术的飞跃
大佬 @GerdeGotIt 最近展示了一个对比:两年前使用 AnimateDiff 技术制作的 AI 视频与如今使用 Runway 制作的效果。可以看到 AI 视频生成技术的进步。特别是在画面的一致性和稳定性方面,提升不是一点半点!
12月
30日
4 条新闻
00:00
PixVerse V3.5 正式上线,模型全面升级,10秒极速生成
爱诗科技宣布PixVerse V3.5版本正式上线,新版本在Turbo模式下10秒内即可生成高质量视频,保持行业领先的语义理解和细节表现力。动漫生成效果显著提升,支持通过文生视频描述特定风格或上传图片生成动漫效果。新增首尾帧功能,激发创作灵感。
来源:爱诗科技 AIsphere
来源:爱诗科技 AIsphere
00:00
爱诗科技PixVerse V3.5上线:5秒生成高清视频,动漫效果大幅提升
爱诗科技宣布其核心产品PixVerse的V3.5版本正式上线,带来显著性能提升和新功能。新版本可在5秒内生成视频,增强运动控制力,支持多种动漫风格切换,满足个性化需求。视频质量提升至1080p高清,并实现首尾帧丝滑过渡,提升整体观感。此前,爱诗科技完成近3亿元A+轮融资,资金将用于技术研发、扩展算力及人才团队建设。
00:00
腾讯开源 StereoCrafter:一键将普通视频转为 3D 视频
StereoCrafter 是腾讯开源的一个强大模型,能够将任何普通视频转换为红蓝、VR 或左右格式的 3D 视频。
官方还演示了将生成的视频在 Apple Vision Pro 中播放的效果,展示了其在实际应用中的潜力。该模型现已在 Hugging Face 上开放,感兴趣的朋友可以亲自跑一下。
00:00
商汤科技推出 Large Motion Model:统一多模态运动生成大模型
Large Motion Model 是商汤科技推出的统一多模态运动生成模型。这一创新模型以运动为核心,构建了一个多模态框架,将主流运动生成任务整合为一个通用模型。
用户只需输入描述,即可生成一段运动姿势视频。目前,该模型已完全开源,支持多模态输入进行控制。你们可以在在线演示亲自体验一下。