导航菜单
华夏信息网 > 信息中心 > “一句话生成视频”AI爆火:分辨率达到480215;480,只支持中文输
百度

“一句话生成视频”AI爆火:分辨率达到480215;480,只支持中文输

不到一周,AI画师又进阶了,而且还是一大步——一句话直接生成视频的那种。

输入一个下午在沙滩上跑步的女人,马上会弹出一个4秒32帧的短片:

或者输入一颗燃烧的心,你可以看到一颗包裹在火焰中的心:

这个最新的文本—视频一代人工智能是清华amp致远研究所出品的模型CogVideo。

Demo一放到网上就火了,已经有网友急论文了:

CogVideo与文本图像生成模型CogView2一脉相承。这个系列的AI机型只支持中文输入,外国朋友还得用谷歌翻译才能玩:

看完视频,网友大呼这进步太快了你应该知道,文本图像生成模型DALL—E2和Imagen刚刚问世

有网友设想:如果继续以这个速度发展下去,一句话就能立刻看到VR头显中AI生成的3D视频效果:

那么,这个名为CogVideo的AI模型的由来是什么呢。

在插入帧之前生成低帧视频。

根据该团队的说法,CogVideo应该是最大的和第一个用于文本生成的开源视频模型。

在设计模型上,该模型共有90亿个参数,基于预先训练的文本图像模型CogView2构建,分为两个模块。

第一部分,基于CogView2,由文本生成几帧图像,此时复合视频的帧率还很低,

在第二部分中,基于双向注意模型,对几个生成的图像进行插值,以生成具有更高帧率的完整视频。

CogVideo在训练中总共使用了540万个文本—视频对。

这里不仅仅是把文字和视频直接匹配起来插进AI,而是先把视频拆分成几帧,给每帧图像增加一个额外的帧标记。

这样可以防止AI看到一个字,直接给你生成几个一模一样的视频帧。

其中,每个训练视频原本都是160×160分辨率,被CogView2上采样到480×480分辨率,所以最终视频也是480×480分辨率。

至于AI的插帧部分,设计了双向通道注意力模块,让AI理解前后帧的语义。

最后生成的视频丝滑,4秒视频帧数输出约32。

在人体测评中获得最高分。

本文采用数据测试和人工评分的方法对模型进行评估。

首先,研究人员在UCF—101和Kinetics—600人体动作视频数据集上测试了CogVideo。

FVD用于评估视频生成的整体质量,该值越低越好Is主要从清晰度和多样性两个方面来评价生成图像的质量,数值越高越好

总体来说,CogVideo生成的视频质量处于中等水平。

但从人的偏好来看,CogVideo生成的视频效果远高于其他模型,甚至在目前最好的生成模型中,也取得了最高分:

具体来说,研究人员会给志愿者一个评分表,让他们根据视频生成的效果随机评价几个模型生成的视频,最后判断综合得分:

CogVideo的常用作品洪和丁明,两部作品,三部作品均出自清华大学计算机系。

论文指导老师唐杰是清华大学计算机系教授,致远研究院学术副院长他的主要研究方向是人工智能,数据挖掘,机器学习和知识图谱

对于CogVideo,有网友表示还有一些值得探索的地方。比如DALL—E2和Imagen有一些不同寻常的提示来证明它们是从0生成的,但是CogVideo的效果更像是从数据集拼凑出来的:

比如狮子直接用手喝水的视频,就不太符合我们的常规认知:

但也有网友指出,这篇论文为语言模型提供了一些新的思路:

用视频训练可能会进一步释放语言模型的潜力因为它不仅数据量大,还隐含着一些难以用文字体现的常识和逻辑

目前CogVideo的代码还在建设中,感兴趣的朋友可以先蹲一会儿~

项目amp论文地址:

郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。

百度