“一句话生成视频”AI爆火：分辨率达到480215;480，只支持中文输-华夏信息网

不到一周，AI画师又进阶了，而且还是一大步——一句话直接生成视频的那种。

输入一个下午在沙滩上跑步的女人，马上会弹出一个4秒32帧的短片:

或者输入一颗燃烧的心，你可以看到一颗包裹在火焰中的心:

这个最新的文本—视频一代人工智能是清华amp致远研究所出品的模型CogVideo。

Demo一放到网上就火了，已经有网友急论文了:

CogVideo与文本图像生成模型CogView2一脉相承。这个系列的AI机型只支持中文输入，外国朋友还得用谷歌翻译才能玩:

看完视频，网友大呼这进步太快了你应该知道，文本图像生成模型DALL—E2和Imagen刚刚问世

有网友设想:如果继续以这个速度发展下去，一句话就能立刻看到VR头显中AI生成的3D视频效果:

那么，这个名为CogVideo的AI模型的由来是什么呢。

在插入帧之前生成低帧视频。

根据该团队的说法，CogVideo应该是最大的和第一个用于文本生成的开源视频模型。

在设计模型上，该模型共有90亿个参数，基于预先训练的文本图像模型CogView2构建，分为两个模块。

第一部分，基于CogView2，由文本生成几帧图像，此时复合视频的帧率还很低，

在第二部分中，基于双向注意模型，对几个生成的图像进行插值，以生成具有更高帧率的完整视频。

CogVideo在训练中总共使用了540万个文本—视频对。

这里不仅仅是把文字和视频直接匹配起来插进AI，而是先把视频拆分成几帧，给每帧图像增加一个额外的帧标记。

这样可以防止AI看到一个字，直接给你生成几个一模一样的视频帧。

其中，每个训练视频原本都是160×160分辨率，被CogView2上采样到480×480分辨率，所以最终视频也是480×480分辨率。

至于AI的插帧部分，设计了双向通道注意力模块，让AI理解前后帧的语义。

最后生成的视频丝滑，4秒视频帧数输出约32。

在人体测评中获得最高分。

本文采用数据测试和人工评分的方法对模型进行评估。

首先，研究人员在UCF—101和Kinetics—600人体动作视频数据集上测试了CogVideo。

FVD用于评估视频生成的整体质量，该值越低越好Is主要从清晰度和多样性两个方面来评价生成图像的质量，数值越高越好

总体来说，CogVideo生成的视频质量处于中等水平。

但从人的偏好来看，CogVideo生成的视频效果远高于其他模型，甚至在目前最好的生成模型中，也取得了最高分:

具体来说，研究人员会给志愿者一个评分表，让他们根据视频生成的效果随机评价几个模型生成的视频，最后判断综合得分:

CogVideo的常用作品洪和丁明，两部作品，三部作品均出自清华大学计算机系。

论文指导老师唐杰是清华大学计算机系教授，致远研究院学术副院长他的主要研究方向是人工智能，数据挖掘，机器学习和知识图谱

对于CogVideo，有网友表示还有一些值得探索的地方。比如DALL—E2和Imagen有一些不同寻常的提示来证明它们是从0生成的，但是CogVideo的效果更像是从数据集拼凑出来的:

比如狮子直接用手喝水的视频，就不太符合我们的常规认知:

但也有网友指出，这篇论文为语言模型提供了一些新的思路:

用视频训练可能会进一步释放语言模型的潜力因为它不仅数据量大，还隐含着一些难以用文字体现的常识和逻辑

目前CogVideo的代码还在建设中，感兴趣的朋友可以先蹲一会儿~

项目amp论文地址: