2023年自動(dòng)駕駛芯片發(fā)展趨勢
自動(dòng)駕駛芯片概況
自動(dòng)駕駛芯片簡(jiǎn)介:車(chē)規級芯片要求更加嚴苛
芯片按應用場(chǎng)景可分為消費芯片、工業(yè)芯片、汽車(chē)芯片和軍工芯片等。汽車(chē)是芯片應用場(chǎng)景之一,汽車(chē)芯片需要具備車(chē)規級。車(chē)規級芯片對加工工藝要求不高,但對質(zhì)量要求高。需要經(jīng)過(guò)的認證過(guò)程,包括質(zhì)量管理標準ISO/TS 16949、可靠性標準 AEC-Q100、功能安全標準ISO26262等。汽車(chē)內不同用途的芯片要求也不同,美國制定的汽車(chē)電子標準把其分為5級。汽車(chē)各系統對芯片要求由高到低依次是:動(dòng)力安全系統 > 車(chē)身控制系統 > 行駛控制系統 > 通信系統 > 娛樂(lè )系統。
車(chē)規級芯片特殊的技術(shù)和工藝要求擋住了企業(yè)進(jìn)入的腳步。車(chē)規級芯片有著(zhù)比消費級芯片更高的技術(shù)門(mén)檻,需滿(mǎn)足溫度、振動(dòng)、電磁干擾、長(cháng)使用壽命等高要求,還要通過(guò)可靠性標準AEC-Q100、 質(zhì)量管理標準ISO/TS16949、功能安全標準ISO26262 等嚴苛的認證流程,大部分芯片企業(yè)尚不具備轉型進(jìn)入能力。目前,車(chē)規級芯片在傳統汽車(chē)中的成本約為 2270 元 / 車(chē),在新能源汽車(chē)中的成本約為 4540 元 / 車(chē)。隨著(zhù)汽車(chē)向電動(dòng)化和智 能化發(fā)展,芯片的種類(lèi)、數量和價(jià)格占比將進(jìn)一步提高。
自動(dòng)駕駛芯片產(chǎn)品趨勢:一體化
云和邊緣計算的數據中心,以及自動(dòng)駕駛等超級終端領(lǐng)域,都是典型的復雜計算場(chǎng)景,這類(lèi)場(chǎng)景的計算平臺都是典型的大算 力芯片。大芯片的發(fā)展趨勢已經(jīng)越來(lái)越明顯的從GPU、DSA的分離趨勢走向DPU、超級終端的再融合,未來(lái)會(huì )進(jìn)一步融合成超 異構計算宏系統芯片。BOSCH給出了汽車(chē)電氣架構演進(jìn)示意圖。從模塊級的ECU到集中相關(guān)功能的域控制器,再到完全集中的車(chē)載計算機。每個(gè)階段還分了兩個(gè)子階段,例如完全集中的車(chē)載計算機還包括了本地計算和云端協(xié)同兩種方式。
英偉達創(chuàng )始人黃仁勛在2022秋季GTC大會(huì )上發(fā)布了新自動(dòng)駕駛芯片——Thor。Thor的特點(diǎn):一是超高AI性能,擁有770億晶體管,而上一代的Orin是170億晶體管。AI性能為2000 TFLOPS@FP8。如果是INT8格式,估計可以達到4000TOPS。二是支持FP8格式,英偉達、英特爾和ARM三家聯(lián)合力推FP8格式標準,力圖打通訓練與推理之間的鴻溝。三是超高CPU性能,Thor的CPU可 能是ARM的服務(wù)器CPU架構V2或更先進(jìn)的波塞冬平臺。四是統一座艙、自動(dòng)駕駛和自動(dòng)泊車(chē),一顆芯片包打天下。
英偉達發(fā)布的一體化自動(dòng)駕駛芯片Altan&Thor的設計思路是完全的“終局思維”,相比BOSCH給出的一步步的演進(jìn)還要更近一 層,跨越集中式的車(chē)載計算機和云端協(xié)同的車(chē)載計算機,直接到云端融合的車(chē)載計算機。云端融合的意思是服務(wù)可以動(dòng)態(tài)的、 自適應的運行在云或端,方便云端的資源動(dòng)態(tài)調節。Altan&Thor采用的是跟云端完全一致的計算架構:Grace-next CPU、 Ampere-next GPU以及Bluefield DPU,硬件上可以做到云端融合。
自動(dòng)駕駛芯片架構分析
主流架構方案對比:三種主流架構
當前主流的AI芯片主要分為三類(lèi),GPU、FPGA、ASIC。GPU、FPGA均是前期較為成熟的芯片架構,屬于通用型芯片。ASIC 屬于為AI特定場(chǎng)景定制的芯片。行業(yè)內已經(jīng)確認CPU不適用于A(yíng)I計算,但是在A(yíng)I應用領(lǐng)域也是必不可少。CPU遵循的是馮·諾依曼架構,其核心是存儲程序/數據、串行順序執行。因此CPU的架構中需要大量的空間去放置存儲單元(Cache)和控制單元(Control),相比之下計算單元(ALU)只占據了很小的一部分,所以CPU在進(jìn)行大規模并行計 算方面受到限制,相對而言更擅長(cháng)于處理邏輯控制。
GPU(GraphicsProcessing Unit),即圖形處理器,是一種由大量運算單元組成的大規模并行計算架構,早先由CPU中分出 來(lái)專(zhuān)門(mén)用于處理圖像并行計算數據,專(zhuān)為同時(shí)處理多重并行計算任務(wù)而設計。GPU中也包含基本的計算單元、控制單元 和存儲單元,但GPU的架構與CPU有很大不同,其架構圖如下所示。與CPU相比,CPU芯片空間的不到20%是ALU,而GPU芯片空間的80%以上是ALU。即GPU擁有更多的ALU用于數據并行處理。
CPU 由專(zhuān)為順序串行處理而優(yōu)化的幾個(gè)核心組成,而 GPU 則擁有一個(gè)由數以千計的更小、更高效的核心組成的大規模并 行計算架構,這些更小的核心專(zhuān)為同時(shí)處理多重任務(wù)而設計。CPU和GPU之所以大不相同,是由于其設計目標的不同,它們分別針對了兩種不同的應用場(chǎng)景。CPU需要很強的通用性來(lái) 處理各種不同的數據類(lèi)型,同時(shí)又要邏輯判斷又會(huì )引入大量的分支跳轉和中斷的處理。這些都使得CPU的內部結構異常復 雜。而GPU面對的則是類(lèi)型高度統一的、相互無(wú)依賴(lài)的大規模數據和不需要被打斷的純凈的計算環(huán)境。
對于深度學(xué)習來(lái)說(shuō),目前硬件加速主要靠使用圖形處理單元。相比傳統的 CPU,GPU 的核心計算能力要多出幾個(gè)數量級,也更容易進(jìn)行并行計算。GPU 的眾核體系結構包含幾千個(gè)流處理器,可將運算并行化執行,大幅縮短模型的運算時(shí)間。隨著(zhù) NVIDIA、AMD 等公司不斷推進(jìn)其 GPU 的大規模并行架構支持,面向通用計算的 GPU已成為加速并行應用程序的重要手段。目前 GPU 已經(jīng)發(fā)展到了較為成熟的階段。利用 GPU 來(lái)訓練深度神經(jīng)網(wǎng)絡(luò ),可以充分發(fā)揮其數以千計計算核心的高效并行計算能力,在使用海量訓練數據的場(chǎng)景下,所耗費的時(shí)間大幅縮短,占用的服務(wù)器也更少。如果針對適當的深度神經(jīng)網(wǎng) 絡(luò )進(jìn)行合理優(yōu)化,一塊 GPU 卡可相當于數十甚至上百臺 CPU服務(wù)器的計算能力,因此 GPU 已經(jīng)成為業(yè)界在深度學(xué)習模型 訓練方面的首選解決方案。
FPGA方案:FPGA芯片定義及結構
FPGA(Field-Programmable Gate Array),即現場(chǎng)可編程門(mén)陣列,它是在PAL、GAL、CPLD等可編程器件的基礎上進(jìn)一步發(fā) 展的產(chǎn)物。它是作為專(zhuān)用集成電路領(lǐng)域中的一種半定制電路而出現的,既解決了定制電路的不足,又克服了原有可編程 器件門(mén)電路數有限的缺點(diǎn)。FPGA芯片主要由6部分完成,分別為:可編程輸入輸出單元、基本可編程邏輯單元、完整的時(shí)鐘管理、嵌入塊式RAM、豐 富的布線(xiàn)資源、內嵌的底層功能單元和內嵌專(zhuān)用硬件模塊。目前主流的FPGA仍是基于查找表技術(shù)的,已經(jīng)遠遠超出了先 前版本的基本性能,并且整合了常用功能(如RAM、時(shí)鐘管理和DSP)的硬核(ASIC型)模塊。
由于FPGA需要被反復燒寫(xiě),它實(shí)現組合邏輯的基本結構不可能像ASIC那樣通過(guò)固定的與非門(mén)來(lái)完成,而只能采用一種易于反復配置的結構。查找表可以很好地滿(mǎn)足這一要求,目前主流FPGA都采用了基于SRAM工藝的查找表結構,也有一些軍 品和宇航級FPGA采用Flash或者熔絲與反熔絲工藝的查找表結構。通過(guò)燒寫(xiě)文件改變查找表內容的方法來(lái)實(shí)現對FPGA的重 復配置。查找表(Look-Up-Table)簡(jiǎn)稱(chēng)為L(cháng)UT,LUT本質(zhì)上就是一個(gè)RAM。目前FPGA中多使用4輸入的LUT,所以每一個(gè)LUT可以看成 一個(gè)有4位地址線(xiàn)的 的RAM。當用戶(hù)通過(guò)原理圖或HDL語(yǔ)言描述了一個(gè)邏輯電路以后,PLD/FPGA開(kāi)發(fā)軟件會(huì )自動(dòng)計算邏輯 電路的所有可能結果,并把真值表(即結果)事先寫(xiě)入RAM,這樣,每輸入一個(gè)信號進(jìn)行邏輯運算就等于輸入一個(gè)地址 進(jìn)行查表,找出地址對應的內容,然后輸出即可。
ASIC方案:ASIC定義及特點(diǎn)
ASIC 芯片可根據終端功能不同分為 TPU 芯片、DPU 芯片和 NPU 芯片等。其中,TPU 為張量處理器,專(zhuān)用于機器學(xué)習。如 Google 于 2016 年 5 月研發(fā)針對 Tensorflow 平臺的可編程 AI 加速器,其內部指令集在 Tensorflow 程序變化或更新算法時(shí) 可運行。DPU 即 Data Processing Unit,可為數據中心等計算場(chǎng)景提供引擎。NPU 是神經(jīng)網(wǎng)絡(luò )處理器,在電路層模擬人類(lèi)神 經(jīng)元和突觸,并用深度學(xué)習指令集直接處理大規模電子神經(jīng)元和突觸數據。ASIC 有全定制和半定制兩種設計方式。全定制依靠巨大的人力時(shí)間成本投入以完全自主的方式完成整個(gè)集成電路的設計 流程,雖然比半定制的 ASIC 更為靈活性能更好,但它的開(kāi)發(fā)效率與半定制相比甚為低下。
ASIC 芯片非常適合人工智能的應用場(chǎng)景。例如英偉達首款專(zhuān)門(mén)為深度學(xué)習從零開(kāi)始設計的芯片 Tesla P100 數據處理速度 是其 2014 年推出GPU 系列的 12 倍。谷歌為機器學(xué)習定制的芯片 TPU 將硬件性能提升至相當于當前芯片按摩爾定律發(fā)展 7 年后的水平。正如 CPU 改變了當年龐大的計算機一樣,人工智能 ASIC 芯片也將大幅改變如今 AI 硬件設備的面貌。如大名鼎鼎的 AlphaGo 使用了約 170 個(gè)圖形處理器(GPU)和 1200 個(gè)中央處理器(CPU),這些設備需要占用一個(gè)機房,還 要配備大功率的空調,以及多名專(zhuān)家進(jìn)行系統維護。而如果全部使用專(zhuān)用芯片,極大可能只需要一個(gè)普通收納盒大小的 空間,且功耗也會(huì )大幅降低。
ASIC技術(shù)路線(xiàn)是有限開(kāi)放,芯片公司需要面向與駕駛相關(guān)的主流網(wǎng)絡(luò )、模型、算子進(jìn)行開(kāi)發(fā)。在相同性能下,芯片的面 積更小、成本更低、功耗更低。ASIC技術(shù)路線(xiàn)未來(lái)的潛力會(huì )很大,選擇ASIC路線(xiàn)并不意味著(zhù)要對不同車(chē)型開(kāi)發(fā)不同的 ASIC,或進(jìn)行不同的驗證。因為不同車(chē)型需要實(shí)現的功能大致相同,而且芯片面對模型和算子進(jìn)行有限開(kāi)放,算法快速 迭代不會(huì )影響到芯片對上層功能的支持。車(chē)廠(chǎng)與芯片設計公司合作,進(jìn)行差異化定制,或是更好的選擇。因為即使是進(jìn) 行差異化的定制,芯片內部50%的部分也是通用的。芯片設計公司可以在原有版本的基礎上進(jìn)行差異化設計,實(shí)現部分 差異功能。
主流架構方案對比:三種主流架構
FPGA是在PAL、GAL等可編程器件的基礎上進(jìn)一步發(fā)展的產(chǎn)物。它是作為專(zhuān)用集成電路領(lǐng)域中的一種半定制電路而出現 的,既解決了定制電路的不足,又克服了原有可編程器件門(mén)電路數有限的缺點(diǎn)。優(yōu)點(diǎn):可以無(wú)限次編程,延時(shí)性比較 低,同時(shí)擁有流水線(xiàn)并行和數據并行、實(shí)時(shí)性最強、靈活性最高。缺點(diǎn):開(kāi)發(fā)難度大、只適合定點(diǎn)運算、價(jià)格比較昂 貴。圖形處理器(GPU),又稱(chēng)顯示核心、視覺(jué)處理器、顯示芯片,是一種專(zhuān)門(mén)在個(gè)人電腦、工作站、游戲機和一些移動(dòng)設 備(如平板、手機等)上做圖像和圖形相關(guān)運算工作的微處理器。優(yōu)點(diǎn):提供了多核并行計算的基礎結構,且核心數非 常多,可以支撐大量數據的并行計算,擁有更高的浮點(diǎn)運算能力。缺點(diǎn):管理控制能力(最弱),功耗(最高)。
ASIC,即專(zhuān)用集成電路,指應特定用戶(hù)要求和特定電子系統的需要而設計、制造的集成電路。目前用CPLD(復雜可編程 邏輯器件)和FPGA(現場(chǎng)可編程邏輯陣列)來(lái)進(jìn)行ASIC設計是最為流行的方式之一。優(yōu)點(diǎn):它作為集成電路技術(shù)與特定用 戶(hù)的整機或系統技術(shù)緊密結合的產(chǎn)物,與通用集成電路相比具有體積更小、重量更輕、功耗更低、可靠性提高、性能提 高、保密性增強、成本降低等優(yōu)點(diǎn)。缺點(diǎn):靈活性不夠,成本比FPGA貴。
唯算力論的局限:TOPS算力不完全等于實(shí)際性能
隨著(zhù)ADAS、自動(dòng)駕駛技術(shù)的興起,以及軟件定義汽車(chē)的逐步深入,智能汽車(chē)對于計算能力和海量數據處理能力等的需求暴增,傳統汽車(chē)的芯片“堆疊”方案已經(jīng)無(wú)法滿(mǎn)足自動(dòng)駕駛的算力需求。芯片最終是為車(chē)企的車(chē)載計算平臺服務(wù)的,在 “軟件定義汽車(chē)”的情況下,解決智能駕駛系統計算平臺的支撐問(wèn)題,無(wú)法只通過(guò)芯片算力堆疊來(lái)實(shí)現。
芯片是軟件的舞臺,衡量芯片優(yōu)劣的標準,要看芯片之上的軟件能否最大化地發(fā)揮作用,算力和軟件之間需要有效匹配。兩款相同算力的芯片比較,能讓軟件運行得更高效的芯片才是“好芯片”。決定算力真實(shí)值最主要因素是內存( SRAM和 DRAM)帶寬,還有實(shí)際運行頻率(即供電電壓或溫度),以及算法的batch尺寸。單顆芯片算力TOPS是關(guān)鍵指標,但并非唯一,自動(dòng)駕駛是一個(gè)復雜系統,需要車(chē)路云邊協(xié)同。所以它的較量除了芯還有 軟硬協(xié)同還有平臺以及工具鏈等等。芯片算力的無(wú)限膨脹和硬件預埋不會(huì )是未來(lái)的趨勢,硬件也需要匹配實(shí)際。高算力 背后是高功耗和低利用率的問(wèn)題。
自動(dòng)駕駛領(lǐng)域99%的視覺(jué)數據在A(yíng)I處理中是無(wú)用的背景。例如檢測鬼探頭,變化的區域是很小一部分,但傳統的視覺(jué)處理 仍然要處理99%的沒(méi)有出現變化的背景區域,這不僅浪費了大量的算力,也浪費了時(shí)間。亦或者像在沙礫里有顆鉆石,AI 芯片和傳統相機需要識別每一顆沙粒,篩選出鉆石,但人類(lèi)只需要看一眼就能檢測到鉆石,AI芯片和傳統相機耗費的時(shí) 間是人類(lèi)的100倍或1000倍。除了冗余信息減少和幾乎沒(méi)有延遲的優(yōu)點(diǎn)外,事件相機的優(yōu)點(diǎn)還有由于低時(shí)延,在拍攝高速物體時(shí),傳統相機由于會(huì )有 一段曝光時(shí)間會(huì )發(fā)生模糊,而事件相機則幾乎不會(huì )。此外事件相機擁有真正的高動(dòng)態(tài)范圍,由于事件相機的特質(zhì),在光 強較強或較弱的環(huán)境下,傳統相機均會(huì )“失明”,但像素變化仍然存在,所以事件相機仍能看清眼前的東西。