阿里巴巴达摩院发布开源文本转视频AI

该模型基于多阶段文本到视频生成扩散模型,输入描述文本,返回符合文本描述的视频,支持英文输入。

整体模型参数约17亿,模型需要硬件配置大约是 16GB 内存和 16GB GPU显存。可在 Hugging Face 或 Model Scope 试用。

圈主 管理员

热门评论
:
该帖子评论已关闭
图片审查中...
编辑答案: 我的回答: 最多上传一张图片和一个附件
x
x
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索