00:00
TangoFlux:极速文本转音频生成模型
TangoFlux 是一个开源的极速文本转音频(TTA)生成模型,在单个 A40 GPU 上仅需 3.7 秒即可生成 30 秒的 44.1kHz 音频。佬友们可以在线体验 看看,速度确实飞快,生成的质量也算还行。
Switti 的论文早在5月份就已发布,近日,其模型终于开源,能够生成1024*1024的图片,速度超级快。你可以在在线演示中亲自感受其超快的生成速度。
用户只需输入描述,即可生成一段运动姿势视频。目前,该模型已完全开源,支持多模态输入进行控制。你们可以在在线演示亲自体验一下。