当下风头正劲的深度学习,起源于真空管计算机的时代1958年,美国康奈尔大学的弗兰克·罗森布拉特受大脑神经元的启发,设计了第一个人工神经网络,这个人工神经网络被命名为深度学习罗森布拉特知道,这项技术超越了当时的计算能力,他惋惜地表示:伴随着神经网络连接节点的增加传统的数字计算机很快就会无法承担计算量的负荷
幸运的是,计算机硬件在几十年间快速升级,使计算速度提高了大约1000万倍因此,21世纪的研究人员得以实现具有更多连接的神经网络,用来模拟更复杂的现象如今深度学习已经广泛普及,被应用于下围棋,翻译,预测蛋白质折叠,分析医学影像等多个领域深度学习的崛起势如破竹,但它的未来很可能是坎坷的罗森布拉特所担忧的计算量的限制,仍然是笼罩在深度学习领域之上的一片阴云如今,深度学习正在逼近计算工具的极限
巨大的计算成本
一个适用于所有统计学模型的规则是:要想使性能提高k倍,至少需要k2倍的数据来训练模型又因为深度学习模型的过参数化,使性能提高k倍将需要至少k4倍的计算量指数中的4意味着,增加10000倍计算量最多能带来10倍的改进显然,为了提高深度学习模型的性能,科学家需要构建更大的模型,使用更多的数据对其进行训练但是计算成本会变得多昂贵呢是否会高到我们无法负担,并因此阻碍该领域的发展
为了探究这一问题,美国麻省理工学院的科学家收集了1000余篇深度学习研究论文的数据,涉及图像分类,目标检测,问答系统,命名实体识别和机器翻译等他们的研究显示,深度学习正面临严峻的挑战如果不能在不增加计算负担的前提下提高性能,计算量的限制就会使深度学习停滞不前芯片性能的提升是否跟上了深度学习的发展并没有在NASNet—A增加的1000多倍的计算量中,只有6倍的提升来自于更好的硬件,其余都是通过使用更多的处理器或运行更长时间达到的,伴伴随着更高的成本理论告诉我们, 提高k倍的性能需要增加k4倍的计算量,但在实践中,增加的计算量至少是k9倍
根据研究人员估计的图像识别领域计算成本—性能曲线,将错误率降到5%,需要进行1028次浮点运算另一项来自美国马萨诸塞大学阿默斯特分校的研究显示了计算负担隐含的巨大经济和环境成本:训练一个错误率小于5%的图像识别模型,将花费1000亿美元,其消耗的电能产生的碳排放与纽约市一个月的碳排放量相当而想要训练错误率小于1%的图像识别模型,成本就更是天价
计算成本的重负在深度学习的前沿已经变得显而易见机器学习智库OpenAI斥资400多万美元,设计并训练了深度学习语言系统GPT—3尽管研究人员在操作中犯了一个错误,但他们并没有修复它,仅仅在论文附录中简要解释道:由于高昂的训练成本,对模型重新训练是不现实的
企业也开始回避深度学习的计算成本欧洲的一家大型连锁超市最近放弃了一项基于深度学习预测哪些产品将被购买的系统该公司的高管判断,训练和运行该系统的成本过高
深度学习路在何方
面对不断上升的经济和环境成本,深度学习领域迫切地需要在计算量可控的前提下,提高性能的方法研究人员为此进行了大量研究
一种策略是,使用为深度学习专门设计的处理器在过去10年中, CPU让位给了GPU,现场可编程门阵列和应用于特定程序的集成电路这些方法提高了专业化的效率,但牺牲了通用性,面临收益递减长远看来,我们可能需要全新的硬件框架 另一种减少计算负担的策略是,使用更小的神经网络这种策略降低了每次的使用成本,但通常会增加训练成本二者如何权衡取决于具体情况比如广泛应用的模型应当优先考虑巨大的使用成本,而需要不断训练的模型应当优先考虑训练成本元学习有望降低深度学习训练成本其理念是,让一个系统的学习成果应用于多个领域例如,与其分别建立识别狗,猫和汽车的系统,不如训练一个识别系统并多次使用但是研究发现,一旦原始数据与实际应用场景有微小的差异,元学习系统的性能就会严重降低因此,全面的元学习系统可能需要巨大的数据量支撑
一些尚未发现或被低估的机器学习类型也可能降低计算量比如基于专家见解的机器学习系统更为高效,但如果专家不能辨别所有的影响因素,这样的系统就无法与深度学习系统相媲美仍在发展的神经符号等技术,有望将人类专家的知识和神经网络的推理能力更好地结合正如罗森布拉特在神经网络诞生之初所感受到的困境,今天的深度学习研究者也开始面临计算工具的限制在经济和环境的双重压力下,如果我们不能改变深度学习的方式,就必须面对这个领域进展缓慢的未来我们期待一场算法或硬件的突破,让灵活而强大的深度学习模型能继续发展,并为我们所用