亚洲AV无一区二区三区,精品国产成人AV在线,一区二区三区四区精品五码,精品国产免费1区

ChatGPT需要怎樣的芯片?

2023-02-15 17:39:19 徐繼 42

pcba

最近,以ChatGPT為首的生成類(lèi)模型已經(jīng)成為了人工智能的新熱點(diǎn),硅谷的微軟、谷歌等都紛紛大舉投資此類(lèi)技術(shù)(微軟100億美元入股ChatGPT背后的OpenAI,谷歌也于近日發(fā)布了自研的BARD模型),而在中國以百度等為代表的互聯(lián)網(wǎng)科技公司也紛紛表示正在研發(fā)此類(lèi)技術(shù)并且將于近期上線(xiàn)。

 

以ChatGPT為代表的生成類(lèi)模型有一個(gè)共同的特點(diǎn),就是使用了海量數據做預訓練,并且往往會(huì )搭配一個(gè)較為強大的語(yǔ)言模型。語(yǔ)言模型主要的功能是從海量的現有語(yǔ)料庫中進(jìn)行學(xué)習,在經(jīng)過(guò)學(xué)習之后可以理解用戶(hù)的語(yǔ)言指令,或者更進(jìn)一步根據用戶(hù)的指令去生成相關(guān)的文字輸出。

 

生成類(lèi)模型大致可以分成兩大類(lèi),一類(lèi)是語(yǔ)言類(lèi)生成模型,另一類(lèi)是圖像類(lèi)生成模型。語(yǔ)言類(lèi)生成模型以ChatGPT為代表,如前所述其語(yǔ)言模型不僅可以學(xué)習理解用戶(hù)指令的意義(例如,“寫(xiě)一首詩(shī),李白風(fēng)格的”),而且在經(jīng)過(guò)海量數據訓練之后,還能夠根據用戶(hù)的指令生成相關(guān)的文字(在上例中就是寫(xiě)一首李白風(fēng)格的詩(shī))。這意味著(zhù)ChatGPT需要有一個(gè)足夠大的語(yǔ)言模型(Large Language Model,LLM)來(lái)理解用戶(hù)的語(yǔ)言,并且能有高質(zhì)量的語(yǔ)言輸出——例如該模型必須能理解如何生成詩(shī)歌,如何生成李白風(fēng)格的詩(shī)歌等等。這也意味著(zhù)語(yǔ)言類(lèi)生成式人工智能中的大語(yǔ)言模型需要非常多的參數,才能完成這類(lèi)復雜的學(xué)習并且記住如此多的信息。以ChatGPT為例,其參數量高達1750億(使用標準浮點(diǎn)數的話(huà)會(huì )占用700GB的存儲空間),其語(yǔ)言模型之“大”可見(jiàn)一斑。

 

另一類(lèi)生成類(lèi)模型是以擴散模型(Diffusion)為代表的圖像類(lèi)生成模型,典型的模型包括來(lái)自OpenAI的Dalle,谷歌的ImaGen,以及目前最熱門(mén)的來(lái)自Runway AI的Stable Diffusion。這類(lèi)圖像類(lèi)生成模型同樣會(huì )使用一個(gè)語(yǔ)言模型來(lái)理解用戶(hù)的語(yǔ)言指令,之后根據這個(gè)指令來(lái)生成高質(zhì)量的圖像。與語(yǔ)言類(lèi)生成模型不同的是,這里使用到的語(yǔ)言模型主要用語(yǔ)理解用戶(hù)輸入,而無(wú)需生成語(yǔ)言輸出,因此參數量可以小不少(在幾億數量級),而圖像的擴散模型的參數量相對而言也不大,總體而言參數量大約在幾十億數量級,但是其計算量并不小,因為生成的圖像或者視頻的分辨率可以很高。

 

生成類(lèi)模型通過(guò)海量數據訓練,可以產(chǎn)生前所未有的高質(zhì)量輸出,目前已經(jīng)有了不少明確的應用市場(chǎng),包括搜索、對話(huà)機器人、圖像生成和編輯等等,未來(lái)可望會(huì )得到更多的應用,這也對于相關(guān)的芯片提出了需求。

 

生成類(lèi)模型對于芯片的需求

 

如前所述,以ChatGPT為代表生成類(lèi)模型需要在海量的訓練數據中進(jìn)行學(xué)習,才能實(shí)現高質(zhì)量的生成輸出。為了支持高效率訓練和推理,生成類(lèi)模型對于相關(guān)芯片也有自己的需求。

 

首先就是對于分布式計算的需求。ChatGPT這類(lèi)語(yǔ)言類(lèi)生成模型的參數量高達千億,幾乎不可能使用單機訓練和推理,而必須大量使用分布式計算。在進(jìn)行分布式計算時(shí),對于機器之間的數據互聯(lián)帶寬,以及計算芯片對于這類(lèi)分布式計算(例如RDMA)就有了很大的需求,因為很多時(shí)候任務(wù)的瓶頸可能并不在計算,而是在數據互聯(lián)上面,尤其是在此類(lèi)大規模分布式計算中,芯片對于分布式計算的高效率支持更加成為了關(guān)鍵。

其次是內存容量和帶寬。雖然對于語(yǔ)言類(lèi)生成模型分布式訓練和推理不可避免,但是每個(gè)芯片的本地內存和帶寬也將很大程度上決定單個(gè)芯片的執行效率(因為每個(gè)芯片的內存都被使用到了極限)。對于圖像類(lèi)生成模型來(lái)說(shuō),可以把模型(20GB左右)都放在芯片的內存中,但是隨著(zhù)未來(lái)圖像生成類(lèi)模型的進(jìn)一步演進(jìn),它對于內存的需求可能也會(huì )進(jìn)一步提升。在這個(gè)角度來(lái)看,以HBM為代表的超高帶寬內存技術(shù)將會(huì )成為相關(guān)加速芯片的必然選擇,同時(shí)生成類(lèi)模型也會(huì )加速HBM內存進(jìn)一步增大容量和增大帶寬。除了HBM之外,CXL等新的存儲技術(shù)加上軟件的優(yōu)化也有將在這類(lèi)應用中增加本地存儲的容量和性能,估計會(huì )從生成類(lèi)模型的崛起中獲得更多的工業(yè)界采用。

 

最后是計算,無(wú)論是語(yǔ)言類(lèi)還是圖像類(lèi)生成類(lèi)模型的計算需求都很大,而圖像類(lèi)生成模型隨著(zhù)生成分辨率越來(lái)越高以及走向視頻應用,對于算力的需求可能會(huì )大大提升——目前的主流圖像生成模型的計算量在20 TFlops左右,而隨著(zhù)走向高分辨率和圖像,100-1000 TFLOPS的算力需求很有可能會(huì )是標準。

 

綜上所述,我們認為生成類(lèi)模型對于芯片的需求包括了分布式計算,存儲以及計算,可謂是涉及了芯片設計的方方面面,而更重要的是如何把這些需求都以合理的方法結合到一起來(lái)確保某一個(gè)單獨的方面不會(huì )成為瓶頸,這也將會(huì )成為一個(gè)芯片設計系統工程的問(wèn)題。

 

GPU和新AI芯片,誰(shuí)更有機會(huì )

 

生成式模型對于芯片有了新的需求,對于GPU(以Nvidia和AMD為代表)和新AI芯片(以Habana,GraphCore為代表),誰(shuí)更有機會(huì )能抓住這個(gè)新的需求和市場(chǎng)?

 

首先,從語(yǔ)言類(lèi)生成模型來(lái)看,由于參數量巨大,需要很好的分布式計算支持,因此目前在這類(lèi)生態(tài)上已經(jīng)有完整布局的GPU廠(chǎng)商更有優(yōu)勢。這是一個(gè)系統工程問(wèn)題,需要完整的軟件和硬件解決方案,而在這個(gè)方面,Nvidia已經(jīng)結合其GPU推出了Triton解決方案。Triton支持分布式訓練和分布式推理,可以把一個(gè)模型分成多個(gè)部分到不同的GPU上去處理,從而解決參數量過(guò)大一個(gè)GPU的主存無(wú)法容納的問(wèn)題。未來(lái)無(wú)論是直接使用Triton,還是在Triton的基礎上做進(jìn)一步開(kāi)發(fā),都是擁有完整生態(tài)的GPU更加方便一點(diǎn)。從計算上來(lái)看,由于語(yǔ)言類(lèi)生成模型的主要計算就是矩陣計算,而矩陣計算本身就是GPU的強項,因此從這一點(diǎn)來(lái)看新的AI芯片相比GPU的優(yōu)勢并不明顯。

 

從圖像類(lèi)生成模型來(lái)看,這類(lèi)模型的參數量雖然也很大但是比語(yǔ)言類(lèi)生成模型要小一到兩個(gè)數量級,此外其計算中還是會(huì )大量用到卷積計算,因此在推理應用中,如果能做非常好的優(yōu)化的話(huà),AI芯片可能有一定機會(huì )。這里的優(yōu)化包括大量的片上存儲來(lái)容納參數和中間計算結果,對于卷積以及矩陣運算的高效支持等。

 

總體來(lái)說(shuō),目前這一代AI芯片在設計的時(shí)候主要針對的是更小的模型(參數量在億級別,計算量在1TOPS級別),而生成模型的需求相對而言還是比原來(lái)的設計目標要大不少。GPU在設計時(shí)以效率為代價(jià)換取了更高的靈活度,而AI芯片設計則是反其道而行之,追求目標應用的效率,因此我們認為在未來(lái)一兩年內,GPU仍將會(huì )在此類(lèi)生成式模型加速中獨占鰲頭,但是隨著(zhù)生成式模型設計更加穩定,AI芯片設計有時(shí)間能追趕上生成式模型的迭代后,AI芯片有機會(huì )從效率的角度在生成式模型領(lǐng)域超越GPU。


微信公眾號