导航菜单
华夏信息网 > 信息中心 > AWS的芯片策略
百度

AWS的芯片策略

如果您希望可以时常见面,欢迎标星收藏哦~

曾经有一段时间——似乎并不是很久以前——数据中心芯片市场是一个资金雄厚但相对简单的市场,来自英特尔、AMD 和 Arm 的 CPU 试图强行进入,而 GPU 则主要来自 Nvidia AMD 和英特尔的一些公司希望强行进入。还有许多人工智能初创公司并没有真正在数据中心销售太多。

近年来,情况发生了巨大变化。

仍然有英特尔、AMD、Nvidia 和 Arm,但在芯片方面也有更多选择。正在生成和分析大量且不断增长的数据,而最近出现的生成式人工智能和大型语言模型正在催生无数希望站稳脚跟的芯片初创公司。

然后还有亚马逊网络服务、微软及其即将推出的 Maia 100和谷歌云及其张量处理单元等超大规模企业,它们正在制造自己的国产处理器。

市场上有大量的芯片选择,云基础设施提供商将在所有这些如何整合在一起方面发挥重要作用。目前,大约70% 的人工智能工作负载都在云端,并且随着企业采用该技术并扩展其工作负载,这一数字有望增长。

对于AWS来说,它有自己的Trainium和Inferentia(显然是为了人工智能推理) ——更不用说它的Graviton CPU和Nitro DPU了,这一切都要归功于它2015年收购了以色列芯片设计公司Annapurna。AWS 也拥有大量 Nvidia GPU,它们是人工智能计算的基石。但人工智能的兴起——以及最近新兴的生成式人工智能技术的加速创新和采用——正在创建一个流体处理器环境,该公司和其他云提供商将不得不驾驭这个环境。

Amazon EC2 产品管理总监 Chetan Kapoor 表示,AWS 目前已准备好使用 Nvidia GPU、Trainium 和 Inferentia,但未来如何发展还需要拭目以待。

“我们正处于了解如何解决这一问题的早期阶段,”卡普尔告诉The Next Platform。“我们所知道的是,基于您在这个领域看到的快速增长,我们还有很大的空间继续扩大基于 Nvidia 的产品的足迹,同时,我们将继续扩大我们的 Trainium 和 Inferentia 容量。现在判断这个市场将如何发展还为时过早。但这不是我们所认为的零和游戏。由于这种指数级增长,我们的 Nvidia GPU 群将继续出现显着增长,但与此同时,我们将继续寻找机会方式将 Trainium 和 Inferentia 引入外部和内部使用。”

与竞争对手一样,AWS 全力发展人工智能,但它在内部能做什么以及在市场上投资了什么。AWS 上月底向人工智能公司 Anthropic又投资了 27.5 亿美元,使其总投资达到 40 亿美元。几周前,这家云提供商表示 Anthropic 的 Claude 3 系列模型正在 Amazon Bedrock AI 托管服务上运行。这与微软与 OpenAI以及谷歌与 Anthropic(投资超过 20 亿美元)的合作伙伴关系相呼应。

为了运行这一切,AWS 坚持使用现有的 Nvidia 和自己的芯片,但实质上负责 EC2 硬件加速业务的 Kapoor 表示,该公司“将继续与其他提供商保持合作”如果英特尔或 AMD 等其他供应商拥有真正引人注目的产品,我们认为可以补充我们基于 Nvidia 的解决方案,我非常乐意在该市场与他们合作。”

AWS 在最近的 GTC 2024 展会上加大了对 Nvidia 的攻击力度,表示——正如微软 Azure、谷歌云和 Oracle 云基础设施所做的那样——正在采用加速器制造商的新型 Blackwell GPU,包括大型GB200 Grace Blackwell 超级芯片,它有两个 B200 GPU通过 600 GB/秒 NVLink 互连连接到单个 Grace CPU。

其他人工智能芯片是否能够强行进入 AWS 环境尚不清楚。Groq、Mythic 和SambaNova Systems等公司正在为人工智能工作负载组装处理器,但卡普尔表示,这不仅仅是加速器本身。OpenAI 首席执行官 Sam Altman 提出了该公司设计自己的人工智能训练和推理芯片的想法,以补充紧张的市场,该市场对 Nvidia GPU 的需求猛增,以满足人工智能工作负载的需求。

“制造芯片真的很难,”他说。“构建服务器、管理和部署数以万计的加速器就更加困难。但更具挑战性的是建立一个利用这种能力的开发者生态系统。根据我们的经验,这不仅仅是硅的问题。硅是产品的一部分。但是,我们如何将其配置为计算平台呢?我们如何管理和扩展它?这很重要,但最重要的是什么?该解决方案的易用性如何?您的产品有哪些可用的开发者生态系统?基本上,客户能多快完成工作?”

生成式人工智能的加速采用并不能让组织花费数月时间学习和使用新的硬件架构。他们使用的需要是一个既易于使用又具有成本效益的整体架构。

卡普尔说:“它必须有一个围绕它的开发者社区,才能在该领域产生吸引力。” “如果有一家初创公司能够实现这一壮举,那就太好了,他们将会成功。但重要的是要真正从这个角度来看它需要高性能、需要便宜、需要广泛可用并且非常易于使用,即使对于大公司来说,真正做到这一点也非常非常困难。”

组织面临着采用人工智能以保持与竞争对手的竞争力的巨大压力。对于公司来说,在考虑他们使用的基础设施时,运行这些人工智能工作负载通常取决于性能与成本。

“我们将看到这种趋势,其中一些客户只关注上市时间,而不太关注确保优化支出,”他说。“他们往往更喜欢基于 Nvidia 的解决方案,因为这使他们能够尽快进入市场。另一方面,我们已经开始看到这种趋势,其中一些客户会考虑这一成本并说,“好吧,我没有预算来支持这一点,”他们会寻找替代解决方案,为他们提供所需的性能,但同时为他们提供一条出路,使他们训练和部署这些模型所需的总成本节省 30% 或 40%。这就是我们或其他芯片合作伙伴提供的一些替代解决方案发挥作用的地方。”

也就是说,对 Nvidia 产品的需求将持续存在。卡普尔表示,许多新的基础模型都是在供应商的 GPU 上构建的,因为研究和科学界在使用 Nvidia 硬件和软件构建和训练人工智能模型方面拥有丰富的经验。此外,Nvidia 将继续扩大系统可提供的原始性能方面的优势。他表示,这家 GPU 制造商“不仅非常非常擅长构建芯片,而且还擅长构建这些系统,而且他们在优化性能方面也非常出色,以确保他们的客户能够从这些非常非常昂贵的加速器中获得最大收益”。

因此,超大规模企业必须密切关注组织告诉他们的信息,因为虽然目前约 70% 的人工智能工作负载都在云端,但这一数字在未来几年将会增长。AWS 和其他公司在 Nvidia 的 A100 或H100 芯片上运行的系统已经非常复杂且规模化,随着 Blackwell 的推出,这种情况只会增加,Blackwell 需要采用液体冷却等技术的机架集成产品,甚至更高的密度。

“设计、构建和实际部署此类机器需要更多持久的复杂性,因此我们预计之前能够在本地部署系统的客户将会遇到很多挑战,”Kapoor说。“他们可能没有液体冷却基础设施。他们可能没有提供足够电力的机架位置,他们将倾向于云,因为我们将为他们完成所有这些艰苦的工作,并且这些资源将仅通过 API 供他们使用和启动。同样的事情也适用于安全方面。今天,在让我们的客户相信他们的知识产权方面,我们拥有非常非常强大的姿态,他们可以完全访问他们的知识产权。”

他们很快还将拥有人工智能超级计算机来处理这些人工智能和机器学习工作负载。AWS 正在与 Nvidia 合作开展“Project Ceiba”,以构建这样一个系统,该系统现在将包括 Blackwell GPU 和 NVLink Switch 4 互连,正如我们所概述的那样。此外,据报道,微软和 OpenAI 正在规划“星际之门”超级计算机,或者正如我们所指出的,可能是组成超级计算机的多个数据中心。

点这里加关注,锁定更多原创内容

今天是《半导体行业观察》为您分享的第3734期内容,欢迎关注。

『半导体第一垂直媒体』

实时 专业 原创 深度

公众号ID:icbank

喜欢我们的内容就点“在看”分享给小伙伴哦

郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。

百度