英伟达计划发布一款专为OpenAI及其他客户定制的全新处理器,助力打造更快、更高效的工具。这是其业务的重大调整,或将重新定义AI竞赛格局。
据知情人士透露,该公司正在为AI推理计算设计全新系统——这类计算负责让AI模型响应用户请求。这款新平台将于下月在圣何塞举办的英伟达GTC开发者大会上正式公布,将整合初创公司Groq设计的芯片。
推理计算已成为行业激烈竞争的焦点。竞争对手谷歌和亚马逊均已推出芯片,与英伟达旗舰产品抗衡。同时,科技行业自主编码技术的爆发式增长,催生了对能更高效处理复杂AI任务的新型芯片的需求。
部分知情人士称,OpenAI已同意成为这款新处理器的更大客户之一,对英伟达而言是重大胜利。这家ChatGPT开发者本就是英伟达的核心客户,过去数月一直在寻找英伟达芯片的更高效替代方案,并于上月与一家芯片初创公司签约,新增了供应选择。
上周五早些时候,OpenAI在宣布将向英伟达大规模采购专用推理算力时,已间接提及这款新处理器,与此同时英伟达还对其进行了300亿美元投资。OpenAI同时也与亚马逊签署重大新协议,使用其Trainium芯片。
英伟达在设计与销售GPU(图形处理器)领域占据主导地位,这类处理器可同时执行数十亿项简单任务。但自AI热潮兴起以来,英伟达首次面临其旗舰产品的性能瓶颈。随着市场向推理方向转移,部分客户正施压英伟达,要求推出能更高效支撑AI应用的芯片。
英伟达旗下高性能的Hopper、Blackwell及Rubin系列GPU,被业内公认为训练超大规模AI模型的顶级产品,定价高昂。多数分析师估计,英伟达掌控着90%以上的GPU市场份额。
英伟达首席执行官黄仁勋长期宣称,英伟达GPU在训练和推理两大场景均为市场领先,这种通用性是产品的核心吸引力。
但过去一年,随着企业纷纷部署AI智能体等工具,试图颠覆数百个行业并通过订阅费获取巨额利润,高端计算需求已从训练转向推理。智能体是可相对自主地代用户完成任务的AI系统。
许多开发和运营AI智能体的企业发现,GPU成本过高、功耗过大,且并不完全适配模型实际运行需求。随着智能体AI快速崛起,英伟达面临巨大压力,亟需研发成本更低、能效更高的推理芯片。
上月,OpenAI与Cerebras达成数十亿美元的计算合作。Cerebras主打推理芯片,其首席执行官安德鲁·费尔德曼称,该芯片速度快于英伟达GPU。据此前报道,早在去年秋天,OpenAI工程师就提出需要更快的推理芯片用于智能体编码应用,公司随即与Cerebras展开谈判。
另据报道,英伟达于去年底同意以200亿美元获得Groq关键技术授权,并引进其核心管理团队,包括创始人乔纳森·罗斯,这是硅谷史上规模更大的“人才并购”交易之一。
Groq所设计的芯片采用与英伟达截然不同的架构,名为语言处理单元,在推理功能上效率极高。不过截至目前,英伟达对如何运用Groq技术仍三缄其口。
AI推理计算主要分为两大环节:
- 预填充:模型理解用户提示词的过程
- 解码:模型逐词生成回复的过程
对大型AI模型而言,预填充通常更快,而解码往往尤其缓慢。
编码应用已成为企业AI最重要、更赚钱的应用场景之一,Anthropic的Claude Code被公认为该领域龙头。但Anthropic主要依靠亚马逊云科技和谷歌云旗下团队设计的芯片支撑模型,而非英伟达。
不过,Claude最主要的竞争对手之一是OpenAI快速增长的Codex工具。知情人士表示,OpenAI计划利用英伟达新系统升级Codex。
以往,英伟达会在高性能数据中心服务器中将自家Vera CPU(中央处理器)与Rubin GPU搭配使用,但部分大客户发现,部分AI智能体任务仅用CPU运行效率更高。
本月,英伟达宣布扩大与Meta的合作,其中包括史上首次大规模纯CPU部署,用于支撑Meta的广告定向AI智能体。这笔交易提前透露了英伟达的战略:跳出GPU范畴,抢占AI细分市场。