CPU誕生,讓英特爾在PC時(shí)代長(zhǎng)期獨(dú)占鰲頭;GPU崛起,讓英偉達(dá)一躍而起風(fēng)光無(wú)二。xPU時(shí)代正在到來(lái),由谷歌TPU衍生而出的未來(lái),誰(shuí)又將乘勢(shì)而起?
在全球科技產(chǎn)業(yè)將目光緊緊鎖定人工智能領(lǐng)域之際,TPU(Tensor Processing Unit,張量處理器)正在悄悄成長(zhǎng)為AI時(shí)代的“弄潮兒”。
GPU用于大模型訓(xùn)練、推理存在高能耗、高成本等問(wèn)題,由AI算力需求增長(zhǎng)帶來(lái)的種種問(wèn)題,或許可以從TPU身上找到更為理想的答案。
TPU“攻入”AI主流市場(chǎng)
由于入局早、算力強(qiáng),由英偉達(dá)提供的GPU芯片幾乎已成為各大企業(yè)訓(xùn)練、推理模型,處理AI相關(guān)算力需求的標(biāo)配。但當(dāng)前,TPU芯片也正在逐步進(jìn)入AI算力主流芯片市場(chǎng)。
TPU由谷歌率先推出。從初代芯片推出至今,TPU的應(yīng)用范圍正逐步擴(kuò)大,谷歌以外的市場(chǎng)也逐漸打開(kāi)。
最初,TPU是谷歌專為加速機(jī)器學(xué)習(xí)和深度學(xué)習(xí)任務(wù)而設(shè)計(jì)的專用芯片,特別是針對(duì)深度學(xué)習(xí)模型的訓(xùn)練和推理。2013年,谷歌開(kāi)始研發(fā)TPUv1,這是全球首款專為AI打造的加速器。2017年,谷歌推出Cloud TPU,用于處理云端計(jì)算任務(wù)。
自2022年底生成式人工智能獲得產(chǎn)業(yè)界廣泛關(guān)注以來(lái),TPU在生成式人工智能領(lǐng)域的應(yīng)用范圍也逐步拓寬。例如,2023年12月,谷歌推出多模態(tài)通用大模型Gemini的三個(gè)不同版本,該模型的訓(xùn)練大量使用了Cloud TPU v5p芯片。
谷歌曾表示,TPU是其推出許多服務(wù)的最大功臣之一,要是少了它,如即時(shí)語(yǔ)音搜尋、相片物件辨識(shí)及互動(dòng)式語(yǔ)言翻譯等無(wú)法絲滑運(yùn)行,還有最先進(jìn)的Gemini、Gemma、Imagen模型等也無(wú)法順利問(wèn)世。
今年5月,谷歌又發(fā)布了第六代TPU芯片Trillium。據(jù)悉,Trillium能在單個(gè)高帶寬、低延遲Pod中擴(kuò)展為多達(dá)256個(gè)TPU的集群,相較于前代產(chǎn)品,Trillium在適配模型訓(xùn)練方面的功能更強(qiáng)。
同時(shí),TPU芯片也逐漸走出谷歌公司,獲得更大范圍的市場(chǎng)青睞。一如,7月30日蘋果公司發(fā)布的一篇研究論文稱,蘋果在訓(xùn)練Apple Intelligence生態(tài)中的人工智能模型AFM時(shí),選擇了谷歌的兩種張量處理單元(TPU)云集群。
性價(jià)比優(yōu)勢(shì)成為“焦點(diǎn)”
在以英偉達(dá)產(chǎn)品為代表的GPU在算力基礎(chǔ)設(shè)施市場(chǎng)“一騎絕塵”的情況下,TPU何以嶄露頭角,又何以贏得蘋果等全球知名企業(yè)的青睞?
市場(chǎng)分析師表示,以GPU為代表的通用計(jì)算架構(gòu)和針對(duì)特定領(lǐng)域的DSA(Domain Specific Architecture,面向特定領(lǐng)域)計(jì)算架構(gòu)是目前兩大主流AI芯片設(shè)計(jì)思路。但在市場(chǎng)容量巨大的應(yīng)用領(lǐng)域,計(jì)算芯片的架構(gòu)演進(jìn)總呈現(xiàn)出從通用型向?qū)S眯娃D(zhuǎn)變的規(guī)律。
隨著大模型訓(xùn)練的計(jì)算量和復(fù)雜度的指數(shù)級(jí)增長(zhǎng),傳統(tǒng)GPU成本昂貴、算力利用率低、能耗大的局限日益凸顯。
今年1月,扎克伯格發(fā)帖公布了一組數(shù)字:到2024年底,Meta“大規(guī)模的計(jì)算基礎(chǔ)設(shè)施”將包括高達(dá)35萬(wàn)張英偉達(dá)H100顯卡,為Meta在人工智能領(lǐng)域的突破提供強(qiáng)大支持。如果將其他GPU計(jì)算在內(nèi),Meta的計(jì)算基礎(chǔ)設(shè)施將擁有“相當(dāng)于近60萬(wàn)張H100的算力”。這將是一筆巨大的開(kāi)銷。
與此同時(shí),馬斯克表示,2024年特斯拉僅僅在英偉達(dá)的人工智能芯片上就將耗費(fèi)超過(guò)5億美元,特斯拉未來(lái)還需要價(jià)值“數(shù)十億美元”的硬件才能趕上最大規(guī)模的競(jìng)爭(zhēng)對(duì)手。
高昂的算力成本,使一眾全球頂尖的科技企業(yè)望而生畏。在此背景下,作為AI專用芯片之一的TPU被業(yè)界期待能夠從新的技術(shù)路線上另辟蹊徑。在這方面,谷歌已經(jīng)提供了成功經(jīng)驗(yàn)。據(jù)谷歌副總裁兼工程院士Norm Jouppi透露,TPU的出現(xiàn)足足讓谷歌省下了15 個(gè)數(shù)據(jù)中心的建設(shè)成本。
探索市場(chǎng)新可能
從產(chǎn)品邏輯來(lái)看,作為一種專用集成電路(ASIC),TPU專為單一特定目的而設(shè)計(jì),用以運(yùn)行構(gòu)建AI模型所需的獨(dú)特矩陣和基于矢量的數(shù)學(xué)運(yùn)算。而GPU的設(shè)計(jì)初衷是處理圖像信息。因此,從架構(gòu)設(shè)計(jì)的角度來(lái)看,相比于適合處理高度并行任務(wù)的GPU, TPU更適用于處理矩陣乘法等神經(jīng)網(wǎng)絡(luò)算法。
“TPU具有為AI大模型而生的天然優(yōu)勢(shì)架構(gòu)?!盩PU架構(gòu)AI芯片公司中昊芯英創(chuàng)始人兼CEO楊龔軼凡在接受《中國(guó)電子報(bào)》記者采訪時(shí)表示,TPU專為神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)而設(shè)計(jì),在相同制造工藝、能耗和芯片尺寸條件下,性能優(yōu)于GPU 3~5倍。在適用場(chǎng)景上,TPU為已有的算法和框架進(jìn)行優(yōu)化,性能和功耗表現(xiàn)均優(yōu)于GPU,更適用于深度學(xué)習(xí)模型的大規(guī)模部署。深度學(xué)習(xí)無(wú)疑仍是AI領(lǐng)域的主導(dǎo)力量,深度學(xué)習(xí)的某個(gè)分支將承載著未來(lái)100%的AI應(yīng)用。從長(zhǎng)遠(yuǎn)來(lái)看,TPU比GPU在AI賽道上更具競(jìng)爭(zhēng)力。
在TPU芯片領(lǐng)域,產(chǎn)業(yè)界正在進(jìn)行不同的嘗試。
一方面,“先行者”谷歌探索出了自己的專屬路線。
咨詢公司D2D Advisory首席執(zhí)行官Jay Goldberg直言,今天只有兩家公司有著成熟的芯片研發(fā)體系來(lái)訓(xùn)練人工智能模型,一個(gè)是英偉達(dá)的GPU,另一個(gè)是谷歌的TPU。但區(qū)別于英偉達(dá),谷歌并不會(huì)以獨(dú)立產(chǎn)品的形態(tài)單獨(dú)出售自己的TPU芯片,而是通過(guò)谷歌云平臺(tái)向外部客戶提供基于TPU的算力服務(wù)。
另一方面,更多芯片從業(yè)者仍在探索基于TPU架構(gòu)的新產(chǎn)品。
今年2月,美國(guó)AI芯片初創(chuàng)公司Groq憑借其開(kāi)發(fā)的新型AI處理器LPU(Language Processing Unit)引發(fā)關(guān)注,使用的TSP(張量流處理器)源頭是谷歌研發(fā)的TPU。今年4月,英特爾推出了專攻深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)推理的類TPU芯片Gaudi 3。
值得關(guān)注的是,國(guó)內(nèi)初創(chuàng)AI芯片企業(yè)中昊芯英歷時(shí)近五年,已成功量產(chǎn)全自研的國(guó)內(nèi)首枚TPU AI訓(xùn)練芯片,并自研AIGC預(yù)訓(xùn)練大模型,正在與行業(yè)伙伴進(jìn)行金融、教育、醫(yī)療等垂直領(lǐng)域?qū)I(yè)大模型的探索落地。業(yè)界普遍認(rèn)為,TPU芯片在中國(guó)市場(chǎng)的應(yīng)用,更有助于TPU這一產(chǎn)品門類的成熟。
當(dāng)然,無(wú)論從技術(shù)還是生態(tài)角度,TPU和類TPU芯片都處于“嬰兒期”,需要進(jìn)一步發(fā)展。但是,AI時(shí)代已經(jīng)到來(lái),算力需求才露出冰山一角。在龐大需求下,新生事物更有施展拳腳的可能。
- QQ:61149512