ChatGPT的出现,彻底把生成的AI推向了爆发。
但别忘了ChatGPT并不是唯一的AI生成模型,仅基于文本输入的模型就有7个——
图像,视频,代码,3D模型,音频,文本,科学知识...
尤其是2022年,有效的AI生成模型层出不穷,很多到达SOTA的模型都是以OpenAI,Meta,DeepMind,Google为核心开发的。
这不,马上有学者写了一篇论文,对2022年新兴的主流一代车型做了年终盘点。
我们来看看这两年AI一代模型在各个领域的进展。
9代机型的最新代表作是什么。
本文将人工智能生成模型分为9类。
下图是2022年前后达到最佳生成效果的模型概述:
除了谷歌LaMDA和Muse,所有机型都是2022年发布的。
其中,谷歌LaMDA虽然发布于2021年,但在2022年再次爆发,2023年Muse刚发布,但论文声称在图像生成性能上达到了SOTA,所以也算。
文本图像生成
该领域的代表作品有DALL—E2,稳定扩散,Imagen和Muse。
DALL E2是来自OpenAI的生成模型,在零样本学习上有很大突破和Dalle一样,两点仍然是剪辑模型除了庞大的训练数据,CLIP基于Transformer对图像块进行建模,并使用比较学习训练,最终帮助Dalle 2取得了良好的生成效果
下图是Dalle 2根据一只戴着贝雷帽,穿着黑色高领的柴犬生成的图像:
Imagen来自Google,基于Transformer模型,其中语言模型是在纯文本数据集上预先训练的Imagen增加语言模型的参数,发现效果比改进扩散模型的参数要好
下图是Imagen根据《一只可爱的柯基住在寿司屋》生成的图像:
由慕尼黑大学CompVis团队开发的稳定扩散基于势扩散模型,可以在势表示空间中通过迭代去噪生成图像,并将结果解码为完整的图像。
Muse是谷歌开发的基于Transformer模型,它取得了比扩散模型更好的结果,只有900M个参数,但推理时间比稳定扩散1.4版本1.4快3倍,比Imagen—3B和Parti—3B快10倍
下图是Muse与Dalle 2和Imagen的生成效果对比:
文本三维模型生成
主要代表作品有Dreamfusion和Magic3D。
DreamFusion由Google和UC Berkeley共同开发,基于预先训练好的文本—2D图像扩散模型,实现了文本生成的3D模型通过采用类似NeRF的3D场景参数化定义映射,可以在不需要任何3D数据或修改扩散模型的情况下实现从文本生成3D图像的效果
下图是DreamFusion生成的穿夹克的松鼠的3D效果:
Magic3D由Nvidia开发,旨在缩短DreamFusion图像的生成时间,同时提高生成质量具体来说,Magic3D可以在40分钟内创建高质量的3D网格模型,速度是DreamFusion的两倍,同时实现了更高的分辨率,在人类评测中超过dream fusion 61.7%
图文模型生成
主要代表作品有《火烈鸟》和《VisualGPT》。
Flamingo是DeepMind推出的小样本学习模型,它基于一个可以分析视觉场景的视觉模型和一个执行基本推理的大语言模型,其中大语言模型是在文本数据集上训练的在输入带有图像或视频的问题后,模型会自动输出一段文字作为答案
VisualGPT是OpenAI做的图文模型在预训练GPT—2的基础上,提出了一种新的注意机制来弥合不同模式之间的语义差异,可以在不需要大量图文数据训练的情况下提高文本生成效率
文本—视频模型生成
主要代表作品有《Phenaki》和《Soundify》。
Phenaki由Google创建,基于新的编解码架构C—ViViT将视频压缩成离散嵌入,可以在时间和空间两个维度上压缩视频,在时间上保持自回归,从自回归中生成任意长度的视频。
Soundify是Runway开发的系统,旨在将音效与视频相匹配,即制作音效具体包括分类,同步,混合三个模块首先,模型通过对声音进行分类来将效果与视频进行匹配,然后将效果与每一帧进行比较,并插入相应的声音效果
文本到音频模型生成
主要代表作品有AudioLM,Jukebox,Whisper。
由谷歌开发的AudioLM将输入的音频映射成一系列离散的标记,并将音频生成转化为语言建模任务,学习根据提示生成自然连贯的音色在人的评测中,认为是51.2%的人语音,接近合成语音的比例,说明合成效果接近真人
Jukebox是OpenAI开发的音乐模型,可以生成带歌词的音乐通过分层VQ—VAE系统将音频压缩到离散空间,并设计损失函数来最大限度地保留信息量,用于解决AI难以学习音频中高级特征的问题但是,目前的模式仍然局限于英语
Whisper由OpenAI开发,实现多语言语音识别,翻译和语言识别目前该模型是开源的,可以安装pip该模型基于68万小时的标记音频数据训练,包括录音,音箱,语音和音频等,保证是人而不是AI生成的
文本到文本模型生成
主要代表作品有《查特普特》,《拉姆达》,《PPER》和《来自大脑的演讲》。
由OpenAI生成的ChatGPT是一个对话生成的AI,它知道如何回答问题,拒绝不恰当的问题请求和质疑不正确的问题前提,基于Transformer它使用人类创建的对话数据集和InstructGPT数据集的对话格式进行训练,还可以生成代码和进行简单的数学运算
LaMDA基于Transformer,利用了它在文本中的远程依赖能力它有1370亿个参数,在1.56T公开对话数据集和网页文本上进行训练,只有0.001%的训练数据用于微调,这也是它效果好的原因之一
来自大脑的语音由Meta AI创建,用于帮助无法通过语音,打字或手势进行交流的人,通过比较学习训练wave2vec 2.0自我监测模型,基于无创脑机接口发出的脑电波进行解读,解码大脑产生的内容,从而合成相应的语音。
文本代码模型生成
主要代表作品有Codex和AlphaCode。
Codex是OpenAI创建的编程模型,基于GPT—3进行微调,可以基于文本需求生成代码模型首先会将问题分解成更简单的编程问题,然后从现有代码中寻找相应的解决方案,基于GitHub数据进行训练
AlphaCode是由DeepMind基于Transformer模型打造的通过在GitHub中使用715.1GB代码进行预训练,从Codeforces引入数据集进行微调,然后基于Codecontests数据集对模型进行验证,进一步提高了模型输出性能
文本科学知识模型生成
主要代表作品有《卡拉狄加》和《密涅瓦》。
Galatica是Meta AI推出的1200亿参数论文写作辅助模型,也被称为写作论文的Copilot模型其目的是帮助人们从新的论文中快速总结并得出新的结论,在包括生成文本,数学公式,代码,化学式和蛋白质序列等任务中取得了良好的效果但因为内容生成不靠谱,一度被迫下架
Minerva由谷歌开发,旨在通过逐步推理解决数学量化问题Minerva可以在不使用计算器的情况下,主动生成涉及数值计算的相关公式,常数和解,以及LaTeX,MathJax等公式,得到最终的数学答案
其他代模型
主要包括Alphatensor,GATO,PhysDiff等其他代模型。
由DeepMind开发的AlphaTensor知道如何改进矩阵乘法,加快计算速度它不仅改进了目前最优的4×4矩阵解,而且加快了70多个不同大小矩阵的计算速度它基于象棋AIalpha zero,其中棋盘代表要解决的乘法问题,下棋步骤代表解决问题的步骤
DeepMind开发的GATO基于强化学习教堂的大模型,完成了600多项不同的任务,包括雅达利迷你游戏,推盒游戏等离散控制,以及机器人,机械臂,NLP对话,视觉生成等连续控制,进一步加速了通用人工智能的进步。
PhysDiff是Nvidia推出的人体运动生成扩散模型,进一步解决了AI人体生成中的漂浮,滑动或刺穿等问题,教会AI模仿物理模拟器生成的跑步模型,在大规模人体运动数据集上达到最先进的效果。
Roberto Gozalo—Brizuela目前是卡米亚大主教大学的研究助理,从事AI相关的项目研究。
爱德华多·c·加里多·默汉是卡米亚大主教大学的助理教授他的研究兴趣包括贝叶斯优化,机器学习,强化学习和生成式人工智能
你觉得生成式AI哪个领域进步最大。
纸张地址:
参考链接: