芯片制造商正在研究新的架構,這些架構可顯著增加每瓦功耗和每個時鐘周期可處理的數(shù)據(jù)量,從而為數(shù)十年來芯片架構的最大轉變奠定了基礎。
所有主要的芯片制造商和系統(tǒng)供應商都在改變方向,引發(fā)一場架構競賽,其中包括從存儲器中讀取和寫入數(shù)據(jù)的方式到數(shù)據(jù)處理和管理的方式,以及最終在單個芯片上的各種單元被封裝在一起。雖然半導體制造的節(jié)點縮減將繼續(xù),但沒有人愿意進行擴展以跟上傳感器數(shù)據(jù)的爆炸性增長以及機器之間的流量增加。
其中包括:
新的處理器體系結構關注的是每個周期處理更大數(shù)據(jù)塊的方法,有時精度較低,或者根據(jù)應用程序的不同,將特定操作優(yōu)先于其他操作。
正在開發(fā)新的內存體系結構,以改變數(shù)據(jù)存儲、讀取、寫入和訪問的方式。
更有針對性的處理單元分散在系統(tǒng)周圍,與內存非常接近。加速器不是依靠一個最適合應用程序的主處理器,而是根據(jù)數(shù)據(jù)類型和應用程序來選擇。
人工智能正在進行的工作:將不同的數(shù)據(jù)類型融合為模式,有效地增加數(shù)據(jù)密度,同時最小化不同數(shù)據(jù)類型之間的差異。
Rambus公司的杰出發(fā)明家StevenWoo說:“有一些趨勢讓人們試圖充分利用他們已經(jīng)擁有的東西?!痹跀?shù)據(jù)中心,你想從硬件和軟件中擠出盡可能多的空間。這就是數(shù)據(jù)中心重新思考經(jīng)濟問題的方式。啟用新功能非常昂貴。但是瓶頸正在轉移,這就是為什么你會看到專門的芯片以及提高計算效率的方法。如果你能夠阻止在內存和I/O上來回發(fā)送數(shù)據(jù),這會產(chǎn)生很大的影響?!?/p>
這些變化在邊緣上更為明顯,而且就在邊緣之外,系統(tǒng)供應商突然意識到數(shù)百億臺設備會產(chǎn)生太多數(shù)據(jù),無法將所有內容發(fā)送到云端進行處理。但是在邊緣處理所有這些數(shù)據(jù)會增加其自身的挑戰(zhàn),需要在不顯著改變功率預算的情況下實現(xiàn)性能的巨大改進。
英偉達(Nvidia)的特斯拉首席平臺架構師羅伯特?奧伯(RobertOber)表示:“新的重點是降低精度?!薄斑@不僅僅是更多的計算周期。它更多的是在內存中進行數(shù)據(jù)打包,使用16位指令格式。所以這并不是為了提高效率而在緩存中存儲更多的數(shù)據(jù)。從統(tǒng)計學上講,結果在兩方面都是一致的?!?/p>
Ober預測,通過一系列的架構優(yōu)化,在可預見的將來,每隔幾年就可以將處理速度提高一倍?!拔覀儗⒖吹郊夹g的進步?!彼f:?!盀榱藢崿F(xiàn)這一目標,我們必須處理三各方面:一個是計算,第二個是存儲。在一些模型中,這是內存訪問。有些則是計算。第三個方面是主機帶寬和I/O帶寬。我們需要在優(yōu)化存儲和網(wǎng)絡方面做大量工作?!?/p>
其中一些已經(jīng)在實施中。在2018年HotChips大會上,三星奧斯汀研發(fā)部門的首席架構師杰夫?魯普利(JeffRupley)在發(fā)言中指出了該公司M3處理器的幾個重大架構變化。一個涉及每個周期更多的指令-六個,而之前的M2為四個。再加上分支預測,這基本上是幾個神經(jīng)網(wǎng)絡在搜索中做的相當于預取的工作,指令隊列的深度是它的兩倍,挑戰(zhàn)就開始顯現(xiàn)出來。
從另一個角度來看,這些變化將創(chuàng)新的紐帶從制造和工藝技術轉移到前端的架構和設計,以及后端的制造封裝。雖然處理技術將繼續(xù)創(chuàng)新,但在每個新節(jié)點上僅提高15%至20%的性能和性能是非常復雜的——而且這還遠遠不足以跟上數(shù)據(jù)的大幅增長。
Xilinx的總裁兼首席執(zhí)行官VictorPeng在HotChips的演講中說:“變革正以指數(shù)速度發(fā)生。每年將產(chǎn)生10zettabytes[10的21次方字節(jié)]的數(shù)據(jù),其中大部分是非結構化數(shù)據(jù)。”
內存中的新方法
處理這么多數(shù)據(jù)需要重新思考系統(tǒng)中的每個組件,,從數(shù)據(jù)處理方式到數(shù)據(jù)存儲方式。
“已經(jīng)有很多嘗試創(chuàng)建新的內存架構,”eSiliconEMEA創(chuàng)新高級主管CarlosMaciàn說?!皢栴}是你需要讀取每一行并在每一行中選擇一位。另一種方法是構建可以從左到右,上下讀取的內存。你還可以更進一步,將計算添加到不同的存儲器中國?!?/p>
這些變化包括改變讀取內存的方式、位置和處理元素的類型,以及使用人工智能對數(shù)據(jù)在系統(tǒng)中存儲、處理和移動的方式和位置進行優(yōu)先級排序。
“如果我們在稀疏數(shù)據(jù)的情況下一次只能從該數(shù)組中讀取一個字節(jié),或者在相同的字節(jié)通道中可能只有8個連續(xù)字節(jié),而不使用與其他字節(jié)或字節(jié)通道相關的所有能耗,那么我們是什么呢?不感興趣,“Cadence產(chǎn)品營銷集團總監(jiān)MarcGreenberg說?!拔磥砜赡芨m合這種事情。例如,如果我們看一下HBM2的架構,HBM2芯片堆棧被安排到16個64位的虛擬通道中,我們只需要從任何虛擬通道的任何訪問中獲得4個連續(xù)的64位字。因此,有可能構建1,024位寬的數(shù)據(jù)陣列并水平寫入,但一次只讀取64位×4個字?!?/p>
內存是馮?諾依曼體系結構的核心組件之一,但它也正在成為最大的實驗領域之一。AMD的客戶端產(chǎn)品首席架構師DanBouvier表示:“虛擬內存系統(tǒng)是一個大問題,在這個系統(tǒng)中,數(shù)據(jù)的傳輸方式更加不自然。如果你能消除DRAM中的Bank沖突,你就能獲得更高效的數(shù)據(jù)流。因此,離散GPU可以在90%的效率范圍內運行DRAM,這是非常高的。但如果你能得到流暢的數(shù)據(jù)流,你也可以在80%到85%的效率范圍內運行APU和CPU?!?/p>
圖1:馮·諾依曼架構
IBM正在開發(fā)一種不同的內存體系結構,它本質上是磁盤陣列的現(xiàn)代版本。IBM的系統(tǒng)硬件架構師杰夫?斯圖切利(JeffStuecheli)將連接技術稱為連接的“瑞士軍刀”,其目標不是局限于單個磁盤,而是巧用可用的任何內存。這種方法的優(yōu)點是可以混合和匹配不同類型的數(shù)據(jù)。
“CPU變成了一個位于高性能信號接口中間的東西,”Stuecheli說?!叭绻阈薷奈Ⅲw系結構,核心可以在每個周期做更多的事情而不需要增加頻率?!?/p>
連接性和吞吐量對于確保這些體系結構能夠處理所生成的數(shù)量龐大的數(shù)據(jù)變得越來越重要?!艾F(xiàn)在最大的瓶頸在于數(shù)據(jù)流動,”Rambus'Woo說?!皹I(yè)界在實現(xiàn)更好的計算方面做得非常出色。但是,如果你正在等待數(shù)據(jù)或專用數(shù)據(jù)模式,則需要更快地運行內存。因此,如果你看一下DRAM和NVM,性能取決于流量模式。如果對數(shù)據(jù)進行流處理,就可以從內存中獲得非常好的效率。但如果數(shù)據(jù)在空間中隨意跳躍,效率就會降低。無論你做什么,隨著體積的增加,你都要做得更快。
更多的計算,更少的移動
使問題復雜化的是,邊緣設備以不同的頻率和速度生成多種不同類型的數(shù)據(jù)。為了使數(shù)據(jù)在各種處理單元之間平滑移動,必須比過去更有效地管理它。
“有四種主要配置-多對多,內存子系統(tǒng),低功耗Io,以及網(wǎng)狀和環(huán)形拓撲,”ArterisIP董事長兼首席執(zhí)行官CharlieJanac說?!澳憧梢詫⑺羞@四個放在一個芯片中,這就是決策IoT芯片所發(fā)生的事情?;蛘吣憧梢蕴砑泳哂懈咄掏铝康腍BM子系統(tǒng)。但復雜性是巨大的,因為其中一些工作負載非常具體,每個芯片有多個工作負載和引腳。如果你看一些這些物聯(lián)網(wǎng)芯片,他們會收集大量的數(shù)據(jù)。對于像汽車中的雷達和LiDAR這樣的東西尤其如此。沒有某種先進的互連,它們就不可能存在。”
挑戰(zhàn)在于如何最小化數(shù)據(jù)移動,同時在需要時最大化數(shù)據(jù)流,并以某種方式在不使用太多功率的情況下實現(xiàn)本地和集中處理之間的平衡。
NetSpeedSystems的產(chǎn)品營銷經(jīng)理拉杰什?拉曼努賈姆(RajeshRamanujam)表示:“一方面是帶寬問題?!薄叭绻赡艿脑挘M量不移動數(shù)據(jù),因此可以將數(shù)據(jù)移動到更靠近處理器的地方。但如果必須移動數(shù)據(jù),則需要盡可能地壓縮數(shù)據(jù)。然而,這一切都不存在于真空之中。所有這些都必須從系統(tǒng)級別進行觀察。每個步驟都需要考慮多個順序軸,它決定了您是使用傳統(tǒng)的讀寫方式使用內存,還是使用新的內存技術。在某些情況下,您可能希望更改存儲數(shù)據(jù)本身的方式。如果您想要更快的性能,這通常意味著更高的芯片面積成本,但這會影響到功耗?,F(xiàn)在你要考慮功能安全,還要擔心數(shù)據(jù)過載。
這就是為什么在邊緣處理和不同處理元素之間的吞吐量有如此多的關注。但是,隨著架構的開發(fā)和改進,如何以及在哪里實現(xiàn)這些處理的方式將會有很大的不同。
舉個例子:Marvell引入了一個內置人工智能的SSD控制器,這樣它就可以在邊緣處理更大的計算負載。人工智能引擎可以用于固態(tài)存儲本身的分析。
“你可以直接將模型加載到硬件中,并在SSD控制器中進行硬件處理,”Marvell的首席工程師內德瓦爾尼察說。今天,云端的主機就是這樣做的。但是,如果每個驅動器都將數(shù)據(jù)發(fā)送到云端,就會產(chǎn)生大量的網(wǎng)絡流量。最好是在邊緣進行處理。因此,你擁有的存儲設備越多,處理能力就越強。減少數(shù)據(jù)移動的好處是巨大的?!?/p>
這種方法特別值得注意的是,它強調了數(shù)據(jù)移動的靈活性,這取決于應用程序。因此,主機可以生成一個任務并將其發(fā)送到存儲設備進行處理,之后僅返回元數(shù)據(jù)或計算結果。在另一種情況下,存儲設備可以存儲數(shù)據(jù)、對其進行預處理和生成元數(shù)據(jù)、標記和索引,然后由主機檢索,以便進行進一步的分析。
這是一種選擇,還有其他的做法。三星的Rupley強調了無序處理和融合的習慣用法,它們可以解碼兩條指令并將它們融合到一個操作中。
AI監(jiān)督和優(yōu)化
所有這些都是人工智能,這是進入芯片架構的真正新元素之一。這種疏忽不是讓操作系統(tǒng)和中間件管理功能,而是圍繞芯片,芯片之間和系統(tǒng)級分布。在某些情況下,這可能包括芯片內的神經(jīng)網(wǎng)絡。
eSilicon公司營銷副總裁邁克·吉安法尼亞說:“與其說你如何將更多的東西組合在一起,不如說你改變了做事的傳統(tǒng)方式?!薄巴ㄟ^人工智能和機器學習,你可以把所有這些東西撒在一個系統(tǒng)周圍,以獲得更高效和更有預測性的處理?!痹谄渌闆r下,它可能涉及到獨立于系統(tǒng)或封裝內獨立運行的獨立芯片?!?/p>
Arm透漏了其首款機器學習芯片計劃,將于今年晚些時候在多個市場領域和垂直領域推出。Arm杰出工程師伊恩?布拉特表示:“這是一種新型處理器。”它包括一個基本模塊,這是一個計算引擎,加上一個MAC引擎,一個具有控制聯(lián)合和廣播網(wǎng)絡的DMA引擎。總共有16個計算引擎,使用7nm工藝技術,在1GHz可以運行4萬億次。
由于Arm是在合作伙伴的生態(tài)系統(tǒng)中提供IP,因此其芯片更通用,可配置為正在開發(fā)的其他AI/ML芯片。它不是將所有內容構建為整體結構,而是按功能劃分處理,因此每個計算引擎都在不同的特征映射上工作。Bratt表示,四個關鍵要素是靜態(tài)調度,高效卷積,帶寬減少機制以及面向未來設計的可編程性。
圖2:Arm的ML處理器架構
與此同時,Nvidia采取了不同的策略,在GPU旁邊構建專用的深度學習引擎,以優(yōu)化處理圖像和視頻的流量。
通過利用部分或全部這些方法,芯片制造商表示,他們每兩年可以將性能提高一倍,跟上數(shù)據(jù)爆炸的步伐,同時保持在電力預算的嚴格限制范圍內。但這不僅僅是提供更多的電腦。它正在改變芯片設計和系統(tǒng)工程的起點,從越來越多的數(shù)據(jù)開始,而不是硬件和軟件的限制。
Synopsys董事長兼聯(lián)席首席執(zhí)行官AartdeGeus表示,“當電腦進入企業(yè)時,很多人都認為世界的發(fā)展速度要快得多?!薄八麄冇靡欢褧嬞~簿對紙張進行會計處理。那是一個指數(shù)變化,現(xiàn)在我們再次看到它。什么是發(fā)展-這可能會給它一種更快的感覺-你可以從某種程度上理解穿孔卡片的會計賬簿,并將其打印出來并進行計算。在心理上,你可以遵循每一步。事實上,在一個農業(yè)領域,你只需要在某一天的溫度上升這么多,就需要澆水和某種肥料,這是機器學習的結合,這是一種優(yōu)化,在過去并不明顯。
“新的架構將被接受,”西門子Mentor總裁兼首席執(zhí)行官沃利?萊恩斯(WallyRhines)表示。它們將被設計成在很多情況下,會有機器學習,因為你的大腦有能力從經(jīng)驗中學習。我走訪了20多家公司,它們都有各自的專用人工智能處理器。但是你會越來越多地在特定的應用中看到它們,它們將補充傳統(tǒng)的馮·諾依曼架構。神經(jīng)形態(tài)計算將成為主流,它是我們下一步如何提高計算效率,降低成本,在移動和連接環(huán)境中做事情的一個重要組成部分?!?/p>