您现在的位置是:探索 >>正文
真·拿嘴做视频!Meta“AI导演”一句话搞定视频素材,网友:我已跟不上AI发展速度
探索37217人已围观
简介首先,根据输入文本生成图像嵌入。然后,解码器Dt生成16帧64×64的RGB图像。插值网络↑F会对初步结果进行插值,以达到理想帧率。接着,第一重超分网络会将画面的分辨率提高到256×256。第二重超分 ...
首先,AI导演根据输入文本生成图像嵌入。真拿嘴
然后,视频视频素材速度解码器Dt生成16帧64×64的句话RGB图像。
插值网络↑F会对初步结果进行插值,搞定以达到理想帧率。网友
接着,已跟第一重超分网络会将画面的不上分辨率提高到256×256。第二重超分网络则继续优化,发展将画质进一步提升至768×768。AI导演
基于这样的真拿嘴原理,Make-A-Video不仅能根据文字生成视频,视频视频素材速度还具备了以下几种能力。句话
将静态图像转成视频:
根据前后两张图片生成一段视频:
根据原视频生成新视频:
刷新文本视频生成模型SOTA
其实,搞定Meta的网友Make-A-Video并不是文本生成视频(T2V)的首次尝试。
比如,清华大学和智源在今年早些时候就推出了他们自研的“一句话生成视频”AI:CogVideo,而且这是目前唯一一个开源的T2V模型。
更早之前,GODIVA和微软的“女娲”也都实现过根据文字描述生成视频。
不过这一次,Make-A-Video在生成质量上有明显的提升。
在MSR-VTT数据集上的实验结果显示,在FID(13.17)和CLIPSIM(0.3049)两项指标上,Make-A-Video都大幅刷新了SOTA。
此外,Meta AI的团队还使用了Imagen的DrawBench,进行人为主观评估。
他们邀请测试者亲身体验Make-A-Video,主观评估视频与文本之间的逻辑对应关系。
结果显示,Make-A-Video在质量和忠实度上都优于其他两种方法。
One More Thing
有意思的是,Meta发布新AI的同时,似乎也拉开了T2V模型竞速的序幕。
Stable Diffusion的母公司StabilityAI就坐不住了,创始人兼CEO Emad放话道:
我们将发布一个比Make-A-Video更好的模型,大家都能用的那种!
而就在前几天,ICLR网站上也出现了一篇相关论文Phenaki。
生成效果是这样的:
对了,虽然Make-A-Video尚未公开,但Meta AI官方也表示,准备推出一个Demo让大家可以实际上手体验,感兴趣的小伙伴可以蹲一波了~
Tags:
相关文章
北京市连续两天日新增感染者数破千 社会面病例波动式上升
探索今天11月23日),北京市召开第422场新冠肺炎疫情防控工作新闻发布会。发布会上,北京市政府新闻发言人徐和建表示,当前,国内疫情点多、面广、频发,北京市疫情新增病例数持续高位增长,连续两天日新增感染者 ...
【探索】
阅读更多西南财经大学信托与理财研究所所长翟立宏:财富管理逐渐成为共识,行业发展的浪潮正在蓄势
探索炒股就看,权威,专业,及时,全面,助您挖掘潜力主题机会!每经记者 张祎 每经编辑 廖丹 10月28日,由《每日经济新闻》主办的“2022中国金融发展论坛暨第13届金鼎奖颁奖礼”成功举行。行业专家、机构 ...
【探索】
阅读更多快手今日起,恢复淘宝外链
探索自2022年10月28日0时起,淘宝与快手的亲密合作关系重新“激活”。天猫双11期间,商家通过淘宝联盟,在快手直播间购物车、短视频购物车、商详页等模块发布商品及服务链接功能已陆续恢复,到10月31日将 ...
【探索】
阅读更多