该模型基于多阶段文本到视频生成扩散模型,输入描述文本,返回符合文本描述的视频,支持英文输入。
整体模型参数约17亿,模型需要硬件配置大约是 16GB 内存和 16GB GPU显存。可在 Hugging Face 或 Model Scope 试用。
该模型基于多阶段文本到视频生成扩散模型,输入描述文本,返回符合文本描述的视频,支持英文输入。
整体模型参数约17亿,模型需要硬件配置大约是 16GB 内存和 16GB GPU显存。可在 Hugging Face 或 Model Scope 试用。
您猜对了答案,下面是向您展示的隐藏信息:
猜错啦:您选中的是「」,正确答案是:「」
·已选
已选·
请先登录!
登录之后回答问题,请先登录!