自研芯片,還能怎么玩?
微軟在最近的人工智能浪潮中可謂是占到了聚光燈下,從花重金完成OpenAI的交易,到把ChatGPT集成到Bing搜索引擎中,都站在了整個(gè)領(lǐng)域發(fā)展的前沿。而在幾天前,又有消息傳出微軟正在和AMD合作開(kāi)發(fā)自研的人工智能芯片。整個(gè)故事一波三折,我們在這里把微軟自研人工智能芯片的大概脈絡(luò )梳理一下。
首先,大約在半個(gè)月前,有媒體報道微軟正在為了大語(yǔ)言模型(LLM,目前最前沿的人工智能技術(shù),同時(shí)也是ChatGPT背后的模型技術(shù))自研芯片,內部代號是Athena。然后,在五月二號,在A(yíng)MD發(fā)布2023年第一季度財報之后的分析師電話(huà)會(huì )議上,有分析師問(wèn)到AMD如何看待目前互聯(lián)網(wǎng)云計算公司自研芯片,是否有和相關(guān)公司合作研發(fā)半定制芯片的計劃,AMD CEO Lisa Su表示AMD目前在CPU、GPU、FPGA和DPU等領(lǐng)域擁有非常完整的IP庫,同時(shí)也有很強的半定制芯片團隊,所以公司有計劃在該領(lǐng)域進(jìn)一步投入來(lái)為大客戶(hù)合作。兩天后,彭博社報道AMD正在和微軟合作人工智能芯片,一方面微軟在為AMD提供人工智能方面的研發(fā)支持,另一方面AMD正在為微軟開(kāi)發(fā)Athena芯片。在該報道發(fā)出之后,AMD的股價(jià)一度上漲6%。緊接著(zhù)彭博社的報道,微軟發(fā)言人表示AMD是微軟重要的合作伙伴,但是目前微軟的Athena芯片并非由AMD開(kāi)發(fā)。但是,微軟并沒(méi)有否認和AMD在人工智能方面合作的報道。
我們認為,總結現有的報道,一方面AMD的半定制芯片領(lǐng)域將會(huì )是未來(lái)人工智能領(lǐng)域公司的重點(diǎn)投入方向之一,因為人工智能應用的大客戶(hù)(主要是互聯(lián)網(wǎng)科技巨頭)對于這個(gè)領(lǐng)域有非常大的興趣;另一方面微軟雖然Athena芯片未必是直接交由AMD開(kāi)發(fā),但是微軟在人工智能硬件方面和AMD合作開(kāi)發(fā)的可能性很大。目前看來(lái),最有可能的狀況是微軟正在和AMD合作開(kāi)發(fā)一整套用于加速人工智能大語(yǔ)言模型的硬件解決方案,該解決方案中包括了微軟自研的Athena芯片,同時(shí)也包括了AMD的CPU等芯片。在A(yíng)thena芯片開(kāi)發(fā)過(guò)程中,很大可能微軟會(huì )考慮加入對于A(yíng)MD芯片組相關(guān)的接口和優(yōu)化(甚至可能會(huì )用到一些AMD的IP),同時(shí)AMD在設計該合作的硬件解決方案中,有可能也會(huì )考慮加入一些由微軟定義的半定制成分(例如數據接口,存儲帶寬,對于微軟人工智能框架的優(yōu)化等)。
最后在芯片系統集成方面,如果微軟使用AMD已經(jīng)具有豐富經(jīng)驗的高級封裝技術(shù)把Athena和AMD的芯片集成到一起也會(huì )是一個(gè)情理之中的結果,而在上層軟件整合方面,預計微軟和AMD會(huì )深度合作并且保證整個(gè)人工智能系統能高效地運行在系統中。
看到這里的發(fā)展,不禁讓人感慨時(shí)過(guò)境遷:30年前,正是微軟和Intel深度合作的Wintel聯(lián)盟點(diǎn)燃了整個(gè)PC市場(chǎng)的高速發(fā)展,微軟和Intel都在該過(guò)程中獲得了高速增長(cháng),而在那個(gè)時(shí)候AMD還是一個(gè)市場(chǎng)上可有可無(wú)的角色,甚至有說(shuō)法認為Intel留著(zhù)AMD主要是避免觸發(fā)反壟斷法被拆分;而到了今天,AMD的市值已經(jīng)超越了Intel,微軟則在最火熱的人工智能領(lǐng)域選擇了和AMD合作。另一方面,我們認為微軟和AMD在硬件和芯片領(lǐng)域深度合作也掀開(kāi)了科技巨頭自研芯片的新篇章,即從強調自己造芯片到強調和傳統芯片公司合作——注意這里的合作并不只是代工或者設計服務(wù)方面的合作,而是在設計指標、IP、軟硬件接口等領(lǐng)域的深度合作。
互聯(lián)網(wǎng)科技公司自研芯片的歷史
我們不妨回顧一下互聯(lián)網(wǎng)公司造芯的歷史?;ヂ?lián)網(wǎng)公司自研芯片幾乎和2016年開(kāi)始的人工智能熱潮同步。人工智能的崛起對于互聯(lián)網(wǎng)的業(yè)務(wù)起了決定性的影響,在云端,人工智能技術(shù)大大提高了推薦系統和廣告系統等互聯(lián)網(wǎng)公司的核心業(yè)務(wù),而在終端,人工智能也為諸多重要的計算機視覺(jué)和語(yǔ)音技術(shù)賦能。為了人工智能相關(guān)業(yè)務(wù)而自研芯片的公司幾乎囊括了所有的科技巨頭,包括谷歌、微軟、亞馬遜、阿里巴巴、字節跳動(dòng)、百度等等。從自研芯片的出發(fā)點(diǎn)來(lái)看,過(guò)去互聯(lián)網(wǎng)科技公司自研芯片主要出于兩方面的考慮,即成本和功能。
從成本角度來(lái)看,由于人工智能計算需要非常大的算力,因此成本也很高。供應鏈角度來(lái)看,Nvidia是最主流的云端人工智能芯片供應商,而其GPU的售價(jià)一方面很高,另一方面對于科技巨頭來(lái)說(shuō)過(guò)分依賴(lài)單一供應商也存在供應鏈風(fēng)險成本(尤其是對于中國互聯(lián)網(wǎng)巨頭來(lái)說(shuō),依賴(lài)Nvidia的風(fēng)險更是由于受到地緣政治的影響存在很高的不確定性)。而另一個(gè)角度是GPU的能效比在運行人工智能應用時(shí)并不完美,事實(shí)上在云端數據中心應用中,有很大一部電費成本是在為人工智能應用在買(mǎi)單。因此,互聯(lián)網(wǎng)科技巨頭在云端人工智能芯片領(lǐng)域自研的主要目的是一方面減少對于Nvidia的依賴(lài),另一方面是希望能實(shí)現比Nvidia更好的能效比,這樣在大規模部署的時(shí)候,從綜合成本的角度來(lái)看可以比直接購買(mǎi)Nvidia的GPU成本更低。在這方面,谷歌的TPU是一個(gè)著(zhù)名的例子,在迭代了幾代之后,我們看到目前谷歌TPU的性能和Nvidia的GPU通常相類(lèi)似,但是在能效比等影響成本的角度,可以實(shí)現比Nvidia更好。
另一個(gè)互聯(lián)網(wǎng)科技公司自研芯片的主要目的是為了實(shí)現更強的功能,即目前市面上并不存在能滿(mǎn)足公司需求的芯片,因此需要能自研芯片來(lái)滿(mǎn)足設計需求,同時(shí)相較于使用第三方通用芯片的其他公司創(chuàng )造了更高的產(chǎn)品競爭力。這里的典型例子就是微軟在HoloLens中使用的自研HPU芯片來(lái)加速人工智能機器視覺(jué)相關(guān)的應用,從而為HoloLens的核心功能模塊(例如室內SLAM定位等)提供足夠的算力同時(shí)不會(huì )消耗太多電池。而谷歌用在Pixel手機上的Tensor處理器也是另一個(gè)相關(guān)的例子。
互聯(lián)網(wǎng)公司之前的自研芯片往往強調“自主”這個(gè)方向。自主意味著(zhù)自研芯片的最關(guān)鍵模塊(IP)以及系統架構是由互聯(lián)網(wǎng)公司自己設計。在實(shí)際操作層面,由于互聯(lián)網(wǎng)科技巨頭畢竟在芯片行業(yè)積累不多,因此通常會(huì )構建一支數百人的團隊,該團隊主要負責芯片架構定義和核心IP的設計驗證;而另一方面,通用IP(例如DDR等)通常使用購買(mǎi)的方式,同時(shí)在后端設計等可以可以外包的職責則交由外部設計服務(wù)公司完成??偠灾?,互聯(lián)網(wǎng)公司造芯的通常模式是由自己的核心團隊完成芯片架構定義和核心模塊設計,然后和中立的第三方IP公司和設計服務(wù)公司合作以購買(mǎi)其他的通用IP并完成整個(gè)芯片設計流程。
微軟掀開(kāi)互聯(lián)網(wǎng)造芯新篇章
微軟和AMD的合作是科技巨頭造芯的一個(gè)新里程碑:這次微軟并不是只和中立的第三方設計服務(wù)公司合作,而且同時(shí)和一個(gè)傳統芯片大廠(chǎng)合作來(lái)設計支持下一代人工智能技術(shù)的芯片和硬件系統。換句話(huà)說(shuō),科技巨頭自研芯片從強調“自主”慢慢走到了今天開(kāi)始走向“合作”。
如果我們想要探究這個(gè)轉變的原因,我們認為目前至少有兩個(gè)因素在驅動(dòng)這個(gè)轉變。第一個(gè)因素就是未來(lái)人工智能對于算力的需求在指數級上升,其對于芯片系統復雜度的要求也是和之前不可同日而語(yǔ)。
舉例來(lái)說(shuō),2016年的時(shí)候最熱門(mén)的人工智能應用是機器視覺(jué)(物體識別和分類(lèi)任務(wù)),主流模型參數量通常在10M-100M之間,算力需求在1-10 GFLOPs左右;而目前流行的大語(yǔ)言模型(例如ChatGPT以及其下一代GPT-4)的模型參數量在1T數量級,算力需求在1-10PTOPS左右,可以說(shuō)無(wú)論是參數量還是算力需求都比原來(lái)大了1000倍以上。在這種情況下,人工智能芯片設計已經(jīng)和2017年時(shí)候谷歌主要為了機器視覺(jué)類(lèi)人工智能任務(wù)設計的TPU完全不同——在2017年,谷歌TPU可以圍繞其基于脈動(dòng)陣列的卷積加速I(mǎi)P以及較大的片上SRAM就能完成大量的人工智能任務(wù)加速,其TPU可以說(shuō)和系統里的其他芯片相對而言更獨立,可以只要把那個(gè)脈動(dòng)陣列IP和片上存儲做好了性能就能達標;而在2023年,由于模型的參數量和算力需求都已經(jīng)高了幾個(gè)數量級,因此在設計人工智能加速芯片時(shí)必須仔細考慮硬件系統里的其他芯片,包括存儲訪(fǎng)問(wèn)、高速數據互聯(lián)、數據和計算在CPU和人工智能芯片之間的分割和移動(dòng)等等,可以說(shuō)是一個(gè)非常復雜的系統,而且這個(gè)復雜系統里必須把每一個(gè)芯片的性能都做到合理才能保證整體系統的效率,否則系統里面的任何一塊芯片都可能成為整體效率的瓶頸——換句話(huà)說(shuō)如果只是優(yōu)化人工智能加速芯片而沒(méi)有其他芯片的搭配優(yōu)化,那么很有可能整體性能并不會(huì )很高。
顯然,科技巨頭不可能去自研系統里的所有這些芯片,而必須和傳統芯片大廠(chǎng)深度合作才能完成一個(gè)整體都很優(yōu)化的系統,尤其是AMD在整體系統整合(高級封裝技術(shù)和數據互聯(lián)技術(shù))都有非常深厚的積累,而微軟則在軟件層面有更多的能力,兩者深度合作可謂是優(yōu)勢互補。
除了系統復雜度之外,另外一個(gè)驅動(dòng)因素是目前的經(jīng)濟形勢。對于科技巨頭來(lái)說(shuō),雖然人工智能保持火熱,但是全球的整體宏觀(guān)經(jīng)濟形勢并不樂(lè )觀(guān),因此科技巨頭都傾向于降低非核心業(yè)務(wù)擴張和投入的程度。對于芯片業(yè)務(wù)來(lái)說(shuō),科技巨頭都更傾向于把投入放在刀刃上,即和人工智能核心加速相關(guān)的IP上,而在其他非核心IP和系統里面的其他芯片來(lái)說(shuō),科技巨頭會(huì )轉而交由合作伙伴去完成,而不是像幾年前一樣傾向于自己擴張團隊來(lái)做盡可能多的事情。
從未來(lái)來(lái)看,科技巨頭造芯的格局將會(huì )在某種程度上延續目前的格局,但是我們預計也會(huì )看到更多的和傳統芯片大廠(chǎng)的深度合作。如前所述,在下一代人工智能這樣的應用中,我們可望會(huì )看到越來(lái)越多微軟和AMD這樣的合作來(lái)共同挑戰這樣的復雜系統;另一方面,由于經(jīng)濟形勢的影響,我們預計會(huì )看到互聯(lián)網(wǎng)科技巨頭造芯的時(shí)候越來(lái)越多地移向上游,即定義芯片架構,以及交付核心IP,而這些IP在SoC里面的整合可以交由合作伙伴完成,甚至我們可能會(huì )看到更多特制版SoC,例如在公版SoC的設計基礎上集成了互聯(lián)網(wǎng)科技巨頭提供的核心IP這樣的方式,從而最大程度降低設計成本開(kāi)銷(xiāo)。從這個(gè)角度來(lái)看,互聯(lián)網(wǎng)科技巨頭需要的不僅僅是一個(gè)設計服務(wù)伙伴,而更需要該芯片合作公司已經(jīng)有相關(guān)的SoC設計和量產(chǎn)經(jīng)驗。從這個(gè)角度來(lái)看,AMD、三星、MTK等都會(huì )是這類(lèi)業(yè)務(wù)的受益者,因為他們有很強的設計服務(wù)/半定制芯片部門(mén),同時(shí)也有尖端SoC設計量產(chǎn)的經(jīng)驗。同時(shí),從技術(shù)角度來(lái)看,高級封裝和芯片粒技術(shù)可望將在這類(lèi)芯片合作中起到核心賦能作用,因為如果能使用芯片粒,那么就可以把科技巨頭的核心IP做到芯片粒中去和其他SoC集成,而無(wú)需在專(zhuān)門(mén)設計一個(gè)專(zhuān)用的SoC光罩掩膜,這樣就可以大大降低設計成本,另一方面也大大增加設計的靈活性——這可能也是微軟和在芯片粒高級封裝領(lǐng)域有豐富經(jīng)驗的AMD合作的另一個(gè)理由。