早已忍受不了英伟达,六大巨头纷纷自研AI芯片
本帖最后由 魏定国 于 2023-10-8 10:57 编辑2023年10月7日,知情人士透露,微软计划在下个月的年度开发者大会上推出该公司首款为人工智能设计的芯片。微软的这款芯片是为训练和运行大型语言模型(LLM)的数据中心服务器设计的。
一、各大巨头早已经忍受不了英伟达
英伟达是当之无愧的“AI算力王者”,A100、H100系列芯片占据金字塔顶尖位置,是ChatGPT这样的大型语言模型背后的动力来源。
但用户面对英伟达的独霸天下,吃尽了成本高昂的苦头。
根据华尔街投行伯恩斯坦的分析,ChatGPT单次查询的成本约为4美分,如果ChatGPT的搜索量增长到谷歌搜索量的十分之一,每年将需要大约价值481亿美元的GPU以及价值约160亿美元的芯片来维持运行。
不管是为了降低成本,还是减少对英伟达的依赖、提高议价能力,科技巨头们也都纷纷下场自研AI芯片。
(1)、微软早就自研芯片
微软的数据中心服务器目前使用英伟达的GPU为云客户提供先进的LLM,包括OpenAI和财捷,以及支持微软生产力应用程序中的人工智能功能。
其实,之前早有消息,微软意欲用Athena替代昂贵的A100/H100。
4月18日,科技媒体The Information报道称,微软正在秘密研发自己的AI芯片,代号雅典娜(Athena)。该芯片由台积电代工,采用5nm先进制程,计划最早于明年推出。
报道称,微软自2019年以来就一直在开发一款定制的专用芯片,用于为大型语言模型提供动力,目前已在测试阶段。Athena的首个目标是为OpenAI提供算力引擎,以替代昂贵的英伟达A100/H100。如果明年大规模推出,Athena将允许微软内部和OpenAI的团队同时训练和推理模型。
SemiAnalysis的分析师迪伦·帕特尔(Dylan Patel)表示,开发类似于雅典娜的芯片可能每年需要花费1亿美元左右,ChatGPT每天的运营成本约70万美元,大部分成本来源于昂贵的服务器,如果雅典娜芯片与英伟达的产品拥有同等竞争力,每个芯片的成本将可以降低三分之一。
(2)、OpenAI尝试收购
OpenAI也正在探索制造自研人工智能芯片,并已开始评估潜在的收购目标。
报道称,至少从去年开始,OpenAI就已讨论各种方案,以解决AI芯片短缺问题。OpenAI已将获取更多AI芯片列为公司首要任务,讨论方案包括自研AI芯片,与包括英伟达在内的其他芯片制造商更密切地合作,以及在英伟达之外实现供应商多元化。
(3)、特斯拉立足于智能驾驶
目前,特斯拉已经推出了两种自研芯片:全自动驾驶(FSD)芯片和Dojo D1芯片。FSD芯片是用于特斯拉汽车上的自动驾驶系统的芯片,Dojo D1芯片则是用于特斯拉超级计算机Dojo的芯片,它是一种高吞吐量、通用的CPU,不是一种加速器。它的目的是为了加速特斯拉自动驾驶系统的训练和改进。
(4)、谷歌:最早自研TPU芯片
早在2013年,谷歌就已秘密研发一款专注于AI机器学习算法的芯片,并将其用在内部的云计算数据中心中,以取代英伟达的GPU。2016年5月,这款自研芯片公诸于世,即TPU。TPU可以为深度学习模型执行大规模矩阵运算,例如用于自然语言处理、计算机视觉和推荐系统的模型,其最初专为谷歌的超级业务云计算数据中心而生。
2020年,谷歌实际上已在其数据中心部署了人工智能芯片TPU v4。不过直到今年4月4日,谷歌才首次公开了技术细节:相比TPU v3,TPU v4性能提升2.1倍。
(5)、亚马逊:训练和推理芯片占据先机
从2013年推出首颗Nitro1芯片至今,AWS是最先涉足自研芯片的云厂商,已拥有网络芯片、服务器芯片、人工智能机器学习自研芯片3条产品线。
2018年初,科技媒体Information爆料亚马逊已经开始设计定制AI芯片。
AWS自研AI芯片版图包括推理芯片Inferentia和训练芯片Trainium。2018年底,AWS推出自研AI推理芯片Inferentia,可以以低成本在云端运行图像识别、语音识别、自然语言处理、个性化和欺诈检测等大规模机器学习推理应用程序。
2020年底,AWS推出专用于训练机器学习模型的Trainium。
2023年初,专为人工智能打造的Inferentia 2发布,将计算性能提高了三倍,加速器总内存提高了四分之一,吞吐量提高了四分之一,延迟提高了十分之一。Inf2实例(可通过芯片之间的直接超高速连接支持分布式推理)最多可支持1750亿个参数,这使其成为大规模模型推理的有力竞争者。
在亚马逊、微软和谷歌这三家中,亚马逊是唯一一家在服务器中提供两种类型芯片(标准计算芯片和用于训练与运行机器学习模型的专用芯片)的云提供商,其在2015年收购以色列芯片设计公司Annapurna Labs为这些努力奠定了基础。
(6)、Meta:基于RISC-V开源架构
直到2022年,Meta Platforms还主要使用CPU(中央处理器)和专为加速AI算法而设计的定制芯片组合来运行其AI工作负载。对于这类任务来说,CPU的效率往往不如GPU。
后来,Meta取消了于2022年大规模推出定制芯片的计划,转而订购了价值数十亿美元的英伟达GPU。
为了扭转局面,Meta已经在开发内部芯片,并于5月19日公布了AI训练与推理芯片项目,称其为“针对推理工作负载的内部定制加速器芯片系列”。
据介绍,MTIA芯片的功耗仅为25瓦,占英伟达等市场领先供应商芯片功耗的一小部分,并使用了RISC-V(第五代精简指令处理器)开源架构。
值得注意的是,Meta于5月初收购了英国AI芯片独角兽Graphcore的AI网络技术团队。Graphcore创始人奈杰尔·图恩(Nigel Toon)曾公开表示,Graphcore不属于CPU、GPU和ASIC(专用计算芯片)中的任何一类,而是一款全新的,专为AI加速而生的处理器:既有极高的运算能力以处理高性能计算业务(HPC),又和GPU一样可编程,以满足不同的场景需求。
完
页:
[1]