一颗芯片的豪赌
如果您希望可以时常见面,欢迎标星收藏哦~
亚马逊 押下巨资,挑战 Nvidia,这是这家电子商务巨头今年以来最大的一笔投资,而对于初创公司 Anthropic 来说,这也是一次赌注。
就其本身而言,亚马逊的 5 纳米 Trainium 2 微处理器并不像 Nvidia 的最新 AI 芯片那么强大,后者因其训练下一代强大 AI 模型的能力而受到 OpenAI 和 xAI 等公司的青睐。
但亚马逊希望其自制硅片能用于打造世界上最强大的计算机——被称为“Rainier 项目”。该项目由以色列芯片初创公司 Annapurna Labs 设计,亚马逊于 2015 年以 3.5 亿美元收购了这家公司。
亚马逊的成败并不取决于每个芯片的原始性能,而是取决于精心策划的垂直整合。整个数据中心,甚至是每个螺丝、铜线和冷却风扇,都经过精心设计,以从数十万个 Trainium 2 芯片中榨取每一分计算能力。
“我们将垂直整合发挥到了极致,”安纳普尔纳工程总监拉米·辛诺 在参观芯片制造工厂时表示。“这种功率和功率效率的概念渗透到了我们所做的每一件事中。”
如果该计划成功,那么亚马逊和 Claude AI 聊天机器人背后的人工智能公司 Anthropic 都将大获全胜。Claude AI 聊天机器人已成为专业软件开发人员和“氛围编码员”的最爱,他们对该工具的唯一不满是其速率限制,为了控制成本,它会切断用户的使用。
Anthropic 是亚马逊最重要的客户,并已同意使用 Rainier 来训练下一版本的 Claude,使其性能更佳、成本效益更高,并为 Claude 的用户提供更多令人垂涎的“token”。
在亚马逊 80 亿美元投资的推动下,Anthropic 的估值已达到 600 亿美元,该公司使用 Google Tensor 处理器和 Nvidia GPU 来训练 Claude 模型的早期版本。
两位知情人士告诉 Semafor,该公司同意使用亚马逊定制芯片与亚马逊投资该公司的决定是无关的。
无论 Anthropic 做出了什么决定,对于亚马逊来说这都是一次胜利;从 Nvidia 手中挖走一家领先的基础模型公司并不容易。
自 2006 年以来,Nvidia 一直在改进和添加 Cuda 的功能,Cuda 是一个功能强大的软件程序,允许 AI 研究人员和其他程序员在 Nvidia GPU 上运行几乎任何机器学习算法或 AI 模型。
由于 Cuda 的领先优势,与 Nvidia 的竞争极其困难。
Anthropic 也可能从摆脱 Nvidia 的多元化中受益,Nvidia 面临短缺问题,令 OpenAI 和微软等公司感到沮丧。计算效率在人工智能行业变得越来越重要,因为公司难以满足对该技术不断增长的需求。
人工智能模型需要世界上最大的计算机进行训练——但公司已经找到了在推理阶段提高模型能力的方法,当模型响应单个提示时。这种趋势被称为“测试时间计算”,它大大增加了对数据中心的需求。
即便如此,亚马逊仍面临批评者的质疑,即它是否能够吸引人工智能世界使用其定制芯片。
亚马逊表示,其 Trainium 芯片已经找到了市场。“我们制造和交付的每一款芯片都有客户在等待它,”Sinno 说道。
Annapurna 产品和客户工程总监 Gadi Hutt 表示,两家公司的合作在亚马逊投资 Anthropic 之前就已经开始。
在奥斯汀设计和测试中心接受采访时,赫特回忆了他与 Anthropic 最早的一次互动,当时这家旧金山研究公司于 2021 年成立后不久。
Annapurna 向 Anthropic 的研究人员提供了第一代 Trainium 芯片,以便他们在周末“试用”。周末结束前,一名 Anthropic 员工发现芯片编译器存在缺陷,这损害了芯片的性能。
“那只是一个周末的工作就向我们证明了这是一支非常强大的团队,我们非常渴望继续与他们合作,”赫特说。“在业务方面花了一些时间。”
人工智能研究人员虽然才华横溢,但通常并不熟悉用于完成其工作所需的数万亿次计算的实际硅片的来龙去脉。
Anthropic 联合创始人兼首席计算官汤姆·布朗 告诉 Semafor,他的职业生涯都在改变世界上最强大的计算机的意志,尽管他从未近距离见过它们。
他说道:“令我感到十分惭愧的是,我已经训练大型模型大约 10 年了,但我从未去过任何一家物理数据中心。”
但这并没有阻止布朗和他的同事剖析强大的人工智能芯片的内部工作原理,直至控制它们的核心软件。
布朗表示,Anthropic 已聘请了技术娴熟的工程师,他们知道如何对 Nvidia GPU 进行逆向工程,从而获取其指令集架构,即直接控制晶体管运行的软件。它是芯片工作的核心,因此 Nvidia 试图隐藏这些信息,以防止竞争对手看到它。
通过获取这些信息,Anthropic 可以更好地优化其模型,使其运行或训练效率更高。“但当他们试图混淆这些信息时,这样做真的很烦人,”布朗说。
他说,转向 Trainium 2 的一个主要好处是亚马逊同意开放其指令集,消除痛点并实现更好的优化。
布朗表示,使用 Trainium 芯片需要一定的学习曲线。“我们是唯一一家设计多款芯片的实验室,因为这样做成本很高,但一旦你这样做了,就意味着你现在支付了这笔大笔前期费用,就可以获得收益了,”他说。
尽管只有少数公司拥有足够的人才和资源来利用该级别的代码,但 Anthropic 和少数其他公司可以利用这种访问权限来帮助改进芯片。
如果 Anthropic 继续使用 Trainium 芯片训练其模型,那么一个附带好处就是这些模型很可能使用亚马逊的架构以最高效的方式运行,从而使 Anthropic 的许多客户成为亚马逊网络服务的实际客户。
当计算集群变得像 Rainier 一样大时,数十万个芯片联网在一起,通常不会产生影响的微小优化突然被放大到有意义的水平。
在参观安纳普尔纳实验室芯片测试区时,辛诺解释了如何通过微小的移动元件来提高电气效率。
这项工作就像是工程天才们的俄罗斯方块。目标是将所有东西尽可能地靠近,尽可能减少每个电子必须移动的距离,同时找到创造性的方法将热量从芯片中带走,以防止芯片过热。
一架 Trainium 2 芯片本质上就是一个熔炉,热空气从中高速喷涌而出。
在对大量基础模型进行训练的过程中,大量数据在 GPU 之间来回传输,因此提高它们之间连接速度的潜力催生了整个公司的诞生。
尽可能减少延迟的目标使得 Rainier 项目的一个独特特点令人费解:它计划将单个计算集群划分为多栋建筑,并通过亚马逊称为“弹性光纤”的高速数据连接将它们连接起来。
“我们不会透露确切的架构,但你可以想象它非常庞大,需要多栋建筑,”Hutt 说道。他说,这些多栋建筑将充当一台计算机,让模型训练运行起来就像整个计算集群都在一个屋檐下一样,而不必将训练分成几个部分。
他说:“该架构将允许 Anthropic 等客户在整个集群中进行训练。”
无论出于何种原因,Anthropic 加入 Trainium 生态系统都是一个互惠互利的安排。
Anthropic 的 Claude 虽然不如 ChatGPT 那么出名,但在人工智能领域却颇有名气。其旗舰型号因其能够生成高质量的计算机代码而成为软件开发人员的最爱。
与其他基础模型公司竞争激烈的 Anthropic 不太可能同意在低于标准的芯片上训练 Claude。即使有投资资金,它的决定也值得认可。如果 Claude 的下一个版本仍然处于领先地位,亚马逊将庆祝胜利。
Nvidia 无人能敌,AWS 的 Nvidia 产品无疑仍将受到欢迎。但亚马逊不需要击败 Nvidia。它只需要 Trainium 获得足够的成功,以吸引一些客户,并减少对 Nvidia 芯片的依赖,因为 Nvidia 芯片非常抢手,很容易出现短缺。
《商业内幕》援引内部文件称,亚马逊一直在努力寻找其芯片的客户。
“根据一份内部文件显示,去年,AWS 最大客户对 Trainium 芯片的采用率仅为 Nvidia GPU 的 0.5%。这项评估是在 2024 年 4 月制定的,它通过 AWS 的云服务衡量了不同 AI 芯片的使用水平。另一款专为一种称为推理的 AI 任务而设计的 AWS 芯片 Inferentia 仅略胜一筹,为 Nvidia 使用率的 2.7%。”
半导体精品公众号推荐
专注半导体领域更多原创内容
关注全球半导体产业动向与趋势
今天是《半导体行业观察》为您分享的第4064期内容,欢迎关注。
『半导体第一垂直媒体』
实时 专业 原创 深度
公众号ID:icbank
喜欢我们的内容就点“在看”分享给小伙伴哦
郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。