人工智能功耗問題:挑戰(zhàn)、權(quán)衡與優(yōu)化路徑

時(shí)間:2025-08-22

來源:電子工程世界

導(dǎo)語:業(yè)界越來越關(guān)注人工智能的功耗問題,但這個(gè)問題并沒有簡單的解決方案。這需要深入了解應(yīng)用、半導(dǎo)體和系統(tǒng)層面的軟件和硬件架構(gòu),以及所有這些的設(shè)計(jì)和實(shí)現(xiàn)方式。每個(gè)環(huán)節(jié)都會影響總功耗和提供的效用。這是最終必須做出的權(quán)衡。

  但首先,必須解決效用問題。電力是否被浪費(fèi)了?“我們將電力用于有價(jià)值的用途,”Ansys(現(xiàn)為新思科技旗下公司)產(chǎn)品營銷總監(jiān) Marc Swinnen 說道?!八鼪]有被浪費(fèi)。它是電力的工業(yè)應(yīng)用,它只是另一個(gè)行業(yè) —— 就像鋼鐵和銅一樣。”

  在很多情況下,這些電力可以被顯著的節(jié)約所抵消?!稗r(nóng)民使用人工智能來控制自動駕駛拖拉機(jī)進(jìn)行耕作,”Microchip 高級產(chǎn)品營銷經(jīng)理 Diptesh Nandi 說道。 “他們在噴灑農(nóng)藥和肥料時(shí)使用人工智能進(jìn)行推理。這不僅節(jié)省了時(shí)間,還減少了化學(xué)品的使用量。生產(chǎn)這些化學(xué)品需要電力,因此使用人工智能可以節(jié)省電力。我們已經(jīng)看到人工智能驅(qū)動的邊緣設(shè)備蓬勃發(fā)展,尤其是在農(nóng)業(yè)領(lǐng)域。”

  在今年的設(shè)計(jì)自動化大會上,一些學(xué)者聲稱,在降低功耗方面,一些簡單的改進(jìn)已經(jīng)被實(shí)現(xiàn)了。“我不同意這種說法,” 新思科技系統(tǒng)設(shè)計(jì)事業(yè)部系統(tǒng)解決方案戰(zhàn)略項(xiàng)目執(zhí)行總監(jiān) Frank Schirrmeister 說道?!拔覀冞€遠(yuǎn)沒有達(dá)到優(yōu)化所有目標(biāo)。此外,應(yīng)用需求增長如此之快,以至于很難跟上功耗的步伐。問題可能是:‘如何實(shí)現(xiàn)最低功耗?’片上網(wǎng)絡(luò)(NoC)的影響、芯片分區(qū)的影響、特定工作負(fù)載架構(gòu)的影響,以及對更高性能的渴望,這是一個(gè)與功耗的權(quán)衡?!?/p>

  有些人將計(jì)算機(jī)的功耗與自然功耗進(jìn)行比較。 “如果你觀察像玄鳳鸚鵡這樣的生物,想想它大腦里 2 瓦的功率能做什么,它就能飛,”Cadence 計(jì)算解決方案事業(yè)部產(chǎn)品營銷總監(jiān) Jason Lawley 說道。“它可以模仿文字,可以對周圍環(huán)境進(jìn)行復(fù)雜的視覺理解,進(jìn)行 3D 計(jì)算,還可以在樹林間飛翔。從這個(gè)角度來看,很多事情都是可能的。問題只是我們多久才能趕上它們。我認(rèn)為人工智能不會永遠(yuǎn)沿著同一條道路發(fā)展。會有其他創(chuàng)新和發(fā)明讓我們繼續(xù)前進(jìn),比如神經(jīng)形態(tài)計(jì)算?!?/p>

  許多頭條數(shù)據(jù)都與數(shù)據(jù)中心的訓(xùn)練有關(guān),但從長遠(yuǎn)來看,這可能是錯(cuò)誤的重點(diǎn)?!皞鹘y(tǒng)上,訓(xùn)練占據(jù)了我們計(jì)算需求的主導(dǎo)地位,因?yàn)樗枰罅康臄?shù)據(jù)集和更長的周期,”Normal Computing 的高級人工智能工程師 Doyun Kim 說道?!叭缃瘢覀冋娮C推理時(shí)計(jì)算技術(shù)的根本性轉(zhuǎn)變。模型執(zhí)行多步推理,包括思維鏈、思維樹和代理工作流,每次查詢都會觸發(fā)數(shù)十次推理操作,其功耗如今已可與訓(xùn)練強(qiáng)度相媲美。對于芯片設(shè)計(jì)人員和數(shù)據(jù)中心運(yùn)營商而言,這代表著一次重大轉(zhuǎn)變。推理正成為首要的功耗考慮因素。但我們?nèi)绾螒?yīng)對這一功耗挑戰(zhàn)?

  這可能會迫使設(shè)計(jì)團(tuán)隊(duì)更加節(jié)約用電?!斑吘?AI 的功耗將會增加,但它將更多地由電池供電,”Cadence 的 Jason Lawley 說道?!八鼘⒏臃稚⒌厝谌胛覀兊娜粘I钪小O鄬Χ?,我們能夠投入到這些電池中的電量與數(shù)據(jù)中心本身的功耗相比微不足道,而用戶將要求更長的電池續(xù)航時(shí)間。”

  邊緣AI更具價(jià)值

  如果我們假設(shè) AI 能夠提供價(jià)值,那么我們可以看看等式的另一面。 “現(xiàn)有的電網(wǎng)并非為人工智能而建,無法應(yīng)對,”Ansys(現(xiàn)已被新思科技收購)總監(jiān) Rich Goldman 表示?!吧壔A(chǔ)設(shè)施將耗費(fèi)大量時(shí)間,成本也非常高昂。我們必須考慮本地能源生產(chǎn),而不是試圖將能源從生產(chǎn)地輸送到需求地。小型核反應(yīng)堆的時(shí)代即將到來。”

  還有其他非碳排放的方式來生產(chǎn)所需的電力?!昂锰幨?,數(shù)據(jù)中心可以建在任何有電的地方,”Ansys 的 Marc Swinnen 補(bǔ)充道?!跋胂肴龉衬D抢锿恋爻渥?,陽光充足,你可以建造太陽能發(fā)電場。人工智能的魅力在于,你只需在那里鋪設(shè)一條光纜,就可以將所有數(shù)據(jù)輸入和輸出,而無需大量的基礎(chǔ)設(shè)施。你不需要港口和道路?!?/p>

  雖然這解決了數(shù)據(jù)中心的問題,但也必須考慮邊緣計(jì)算。 Normal Computing 高級 AI 工程師 Maxim Khomiakov 表示:“在運(yùn)行 LLM 時(shí),設(shè)備上的邊緣 AI 執(zhí)行仍然是一個(gè)極其耗能的過程。轉(zhuǎn)向模型高效地獲取輸出是一項(xiàng)巨大的挑戰(zhàn)。暴力破解解決方案非常耗能。一種已知的技術(shù)是生成許多輸出軌跡,并同時(shí)對有用的軌跡進(jìn)行子集化,從而優(yōu)化提示和答案。從長遠(yuǎn)來看,未來的道路是構(gòu)建針對 LLM 和推理密集型工作負(fù)載優(yōu)化的 ASIC 芯片。推理需求正在飆升,這正在趕上訓(xùn)練成本。

  邊緣自主性正在不斷發(fā)展?!笆褂眠吘?AI 的客戶的主要要求是降低延遲,”Microchip 的 Diptesh Nandi 說道。“將數(shù)據(jù)發(fā)送到數(shù)據(jù)中心并獲取響應(yīng)需要耗費(fèi)太多時(shí)間和功耗。一種解決方案是在將其發(fā)送到數(shù)據(jù)中心之前在邊緣執(zhí)行一些計(jì)算。例如,如果您在高速公路上監(jiān)控車牌,75% 的工作負(fù)載是檢測車牌的位置并沿道路跟蹤它。一旦您能夠鎖定該位置,就可以將數(shù)據(jù)發(fā)送回云端進(jìn)行字符識別。”

  模型演進(jìn)

  模型規(guī)模持續(xù)擴(kuò)大。“這些大型語言模型的變化速度持續(xù)加快,這直接增加了訓(xùn)練的消耗率,”Jason Lawley 說道。“觀察它們在何時(shí)達(dá)到收益遞減的臨界點(diǎn)將會很有趣,但目前看來它們還遠(yuǎn)未達(dá)到這個(gè)臨界點(diǎn)。它們持續(xù)輸入更多數(shù)據(jù),并取得了更好的結(jié)果。它們對初始數(shù)據(jù)集采用了不同的改進(jìn)技術(shù),并且進(jìn)行了二次訓(xùn)練和其他形式的訓(xùn)練,最終將這些大型語言模型融入其中?!?/p>

  目前的目標(biāo)似乎是創(chuàng)建更大、更統(tǒng)一的模型。“首先可以優(yōu)化的是模型本身,”Synopsys 的 Frank Schirrmeister 說道?!巴ㄟ^使模型更貼合其需求,可以獲得很多好處。你可以使這些模型更加貼合應(yīng)用程序,從而能夠限制它們。在其上運(yùn)行的、消耗所有能量的應(yīng)用程序正在變得更加優(yōu)化,不再局限于泛化?!?/p>

  這可能會讓事情朝著不同的方向發(fā)展?!罢绻杵袠I(yè)引入多電壓域、時(shí)鐘門控和電源門控來節(jié)省功耗一樣,我們可以將類似的概念應(yīng)用于 AI 系統(tǒng),”Normal 的 Doyun Kim 說道。“就像避免同時(shí)運(yùn)行整個(gè)模型的混合專家 (MoE) 架構(gòu)一樣,我們可以使 AI 系統(tǒng)更加模塊化。通過實(shí)時(shí)預(yù)測需要哪些模塊并動態(tài)地僅激活必要的組件 —— 類似于工作負(fù)載預(yù)測 —— 我們可以通過智能系統(tǒng)級電源管理實(shí)現(xiàn)顯著的節(jié)能?!?/p>

  一些優(yōu)化需要協(xié)同設(shè)計(jì)?!败浖褩S泻芏喔倪M(jìn)的機(jī)會,例如運(yùn)算符融合、布局轉(zhuǎn)換和編譯器感知調(diào)度,”Expedera 軟件工程總監(jiān) Prem Theivendran 說道?!斑@些可以釋放潛在的硬件效率,但前提是硬件能夠暴露這些鉤子。這需要硬件功能和軟件優(yōu)化之間的密切協(xié)調(diào)。當(dāng)模型、編譯器和硬件協(xié)同優(yōu)化時(shí),即使在已經(jīng)高效的加速器上,也能獲得顯著的收益?!?/p>

  邊緣計(jì)算擁有更多機(jī)遇?!傲炕亲钪匾年P(guān)鍵之一,”Jason Lawley 說道。“我們看到人們正在朝著兩個(gè)方向發(fā)展。一是縮小規(guī)模。雖然目前許多人都在使用 Int8,但 Int4,有時(shí)甚至是 Int1 也在考慮之中。Int1 可以減少存儲空間、帶寬和計(jì)算量,而這三個(gè)方面是我們功耗的主要來源。我們看到越來越多關(guān)于混合量化模式的研究,其中一些層可能以 FP16 運(yùn)行,因?yàn)樗鼈兎浅V匾渌麑觿t以 Int4 運(yùn)行。我們也看到人們從整數(shù)回歸浮點(diǎn),甚至使用 FP16 和 FP8,因?yàn)樗麄儼l(fā)現(xiàn),在使用 8 位或 16 位非線性的模型中,浮點(diǎn)數(shù)能獲得更好的結(jié)果。使用浮點(diǎn)表示可以獲得更精細(xì)的粒度。”

  設(shè)計(jì)更優(yōu)的硬件

  主要有兩種方法。第一種是設(shè)計(jì)更適合執(zhí)行 AI 工作負(fù)載的架構(gòu),第二種是提高現(xiàn)有架構(gòu)的效率?!肮こ淘O(shè)計(jì)始終是一個(gè)抽象的過程,從這個(gè)角度來看,這是一種權(quán)衡,因?yàn)槟阌肋h(yuǎn)無法真正在整個(gè)設(shè)計(jì)層次上實(shí)現(xiàn)全面優(yōu)化,”Fraunhofer IIS 自適應(yīng)系統(tǒng)工程部門高級混合信號自動化團(tuán)隊(duì)經(jīng)理 Benjamin Prautsch 說道?!澳銜L試盡可能地抽象,以便在更短的時(shí)間內(nèi)創(chuàng)造更多價(jià)值。但這是以次優(yōu)設(shè)計(jì)為代價(jià)的,至少對于特定用途而言是這樣。我們永遠(yuǎn)無法真正找到最優(yōu)方案。當(dāng)然,我們希望進(jìn)行優(yōu)化,這需要對整個(gè)堆棧進(jìn)行優(yōu)化,沿著價(jià)值鏈從上到下。我們可能需要兼具整體視角和能夠優(yōu)化關(guān)鍵問題的優(yōu)秀工具。最大的問題是人工智能發(fā)展如此迅速,這與制造時(shí)間表并不兼容。

  在工藝的每個(gè)步驟中都可以節(jié)省功耗,但功耗也可能被浪費(fèi)?!半m然降低功耗看似簡單 —— 最小化 P=fCv2 中的各項(xiàng) —— 但由于功耗、性能和面積 (PPA) 之間的內(nèi)在權(quán)衡,這使其變得復(fù)雜,”Cadence 數(shù)字與簽核事業(yè)部產(chǎn)品管理總監(jiān) Jeff Roane 表示?!坝捎陔y以測量和優(yōu)化的故障功耗,這些復(fù)雜性在 AI 芯片數(shù)學(xué)函數(shù)中成倍增加。因此,必須在每一個(gè)設(shè)計(jì)抽象層級進(jìn)行以準(zhǔn)確分析為驅(qū)動的有效優(yōu)化,其中架構(gòu)級優(yōu)化可實(shí)現(xiàn)最大程度的降幅,最高可達(dá) 50%;RT 級優(yōu)化可實(shí)現(xiàn)最高 20% 的降幅;門控物理良率最高可達(dá) 10%?!?/p>

  在每個(gè)設(shè)計(jì)步驟中,了解工作負(fù)載都至關(guān)重要?!肮闹饕蓜討B(tài)功耗決定,而動態(tài)功耗高度依賴于矢量,” 新思科技研究員 Godwin Maben 表示?!疤囟ㄓ?AI 的工作負(fù)載定義非常明確,因此生成工作負(fù)載并非問題。功耗主要取決于從計(jì)算到內(nèi)存再到計(jì)算的數(shù)據(jù)傳輸。擁有一個(gè)節(jié)能的總線架構(gòu)至關(guān)重要,甚至像壓縮進(jìn)出內(nèi)存的數(shù)據(jù)這樣的架構(gòu)決策也至關(guān)重要。功耗降低是可擴(kuò)展的。由于同一計(jì)算單元的實(shí)例會重復(fù)數(shù)千次,因此優(yōu)化一個(gè)單元將顯著降低整體功耗。”

  在所有討論中,數(shù)據(jù)移動都是功耗關(guān)注點(diǎn)的首要問題?!癆I 工作負(fù)載涉及在計(jì)算單元、內(nèi)存和加速器之間傳輸大量數(shù)據(jù),”Arteris 產(chǎn)品管理和營銷副總裁 Andy Nightingale 表示?!盀榱私档兔看瓮评淼墓模枰紤]本地化通信。與長距離傳輸相比,平鋪或空間聚類技術(shù)更受歡迎。我們預(yù)見到,未來巧妙的互連設(shè)計(jì)將成為 SoC 架構(gòu)師扭轉(zhuǎn) AI 功耗曲線的最重要杠桿?!?/p>

  處理器的其他部分對工作負(fù)載的依賴程度較低?!盎仡欉^去,矩陣乘法一直是貫穿整個(gè) AI 領(lǐng)域始終不變的要素,”Jason Lawley 說道?!斑@部分其實(shí)并沒有改變。量化變了,激活函數(shù)變了,帶寬變了,人們排列不同層的方式也變了。但矩陣乘法的功能始終不變。我們確保擁有非常強(qiáng)大的矩陣乘法解決方案,同時(shí)在激活函數(shù)等方面也擁有更高的可編程性?!?/p>

  更重要的架構(gòu)變革研究仍在繼續(xù)?!瓣P(guān)于內(nèi)存計(jì)算的討論尚未結(jié)束,”Frank Schirrmeister 說道?!八兄谔岣咝阅芎凸?,因?yàn)槟銦o需跨邊界傳輸數(shù)據(jù)。你無需移動數(shù)據(jù)即可執(zhí)行計(jì)算。這些都是尚未得到充分利用的領(lǐng)域。其他人正在認(rèn)真考慮神經(jīng)形態(tài)計(jì)算。我不認(rèn)為我們會被馮?諾依曼束縛。只是太多的遺留問題依賴于它。你能用不同的方法嗎,尤其是在人工智能加速的背景下?當(dāng)然可以。市面上有很多方法。有什么方法能堅(jiān)持下去嗎?可能是為了滿足那些特定的需求,比如降低能耗和功耗?!?/p>

  為了更接近大腦的運(yùn)作方式,必須考慮模擬技術(shù)。“有一些非常有趣的模擬初創(chuàng)公司,已經(jīng)取得了巨大的成果,”Jason Lawley 說。“不幸的是,他們無法擴(kuò)展到所需的所有算子范圍。對于模擬加速器擅長的事情,它們確實(shí)做得很好,而且功耗極低。但很多時(shí)候,它們不得不回歸數(shù)字技術(shù)。模擬技術(shù)是一個(gè)復(fù)雜的制造過程。為了達(dá)到必要的控制水平,你需要確保所有電流、電阻和線路連接都正確。這是一個(gè)更難解決的問題。也許未來會解決這個(gè)問題,但各大公司長期以來一直在努力解決這個(gè)問題。

  EDA 的作用

  EDA 主要通過兩種方式幫助降低 AI 功耗。首先是提供決策所需的信息。其次是提供工具,以實(shí)現(xiàn)高效的實(shí)施和優(yōu)化。Expedera 的 Prem Theivendran 表示:“EDA 可以將過去的猜測轉(zhuǎn)化為數(shù)據(jù)驅(qū)動的設(shè)計(jì),從而塑造 AI 架構(gòu)。通過設(shè)計(jì)空間探索、工作負(fù)載分析和 AI 輔助調(diào)優(yōu),EDA 可以幫助架構(gòu)師構(gòu)建不僅功能齊全,而且針對實(shí)際 AI 工作負(fù)載進(jìn)行優(yōu)化的硬件?!?/p>

  左移的真正程度在系統(tǒng)層面上變得顯而易見?!拔覀円呀?jīng)到了不能只考慮芯片級優(yōu)化的階段 —— 我們需要考慮從封裝到電路板再到機(jī)架級的整個(gè)堆棧,”Doyun Kim 說道。“尤其重要的是工作負(fù)載感知的系統(tǒng)設(shè)計(jì)。不同的 AI 工作負(fù)載 —— 無論是訓(xùn)練、推理,還是這些新的推理時(shí)計(jì)算模式 —— 都具有截然不同的功耗和散熱特性。EDA 工具需要不斷發(fā)展,以幫助我們根據(jù)實(shí)際工作負(fù)載特性分析和優(yōu)化這些全系統(tǒng)交互。只有這樣,我們才能設(shè)計(jì)出真正最大化硅片利用率的系統(tǒng),而不是在大多數(shù)時(shí)間里受到散熱限制。”

  硬件架構(gòu)的快速迭代讓我們可以考慮更多選項(xiàng)?!癊DA 需要融入高級的、物理感知的規(guī)劃工具,”Arteris 的 Andy Nightingale 說道。“自動化必須能夠快速迭代拓?fù)浜筒季?,模擬功耗和性能之間的權(quán)衡。基于 AI 的設(shè)計(jì)空間探索還可以幫助實(shí)現(xiàn)最佳分區(qū)、布線和資源布局。”

  工作負(fù)載、架構(gòu)、事務(wù)與內(nèi)存存儲之間交互的復(fù)雜性不斷增加?!八鼈冏兊眠^于復(fù)雜,人們根本無法預(yù)測,”Frank Schirrmeister 說道。“在某些組件中,電子表格仍然可以幫助您識別緩存對跨越芯片或芯片集邊界的流量的影響,這可能會消耗更多電量。您仍然可以進(jìn)行粗略的計(jì)算并使用隨機(jī)模型。但這些交互過于復(fù)雜,以至于人們要求在目標(biāo)架構(gòu)上運(yùn)行 AI 工作負(fù)載,以便您確信自己在性能方面做得正確?!?/p>

  人類創(chuàng)新仍有很大的空間?!斑@是一個(gè)復(fù)雜性的問題,它本質(zhì)上過于復(fù)雜,這表明在設(shè)計(jì)過程中可能會出現(xiàn)大量的浪費(fèi),”Fraunhofer 的 Benjamin Prautsch 說道?!霸趯栴}分解為解決方案時(shí),這種情況并不少見。這始終是一個(gè)權(quán)衡,而且總是帶有偏見的。利益相關(guān)者之間的良好溝通至關(guān)重要,這樣才能快速排除各種選項(xiàng),并迅速縮小最合理的選擇范圍,但這并不一定意味著最佳解決方案已經(jīng)擺在桌面上?!?/p>

  結(jié)論

  人工智能的功耗問題開始敲響警鐘,這是有充分理由的。但這與其他行業(yè)的興起并無二致。關(guān)鍵在于我們?nèi)绾螒?yīng)對。我們是應(yīng)該創(chuàng)造更多清潔能源,還是應(yīng)該以某種方式降低功耗?我們能否通過在半導(dǎo)體的舒適區(qū)之外進(jìn)行設(shè)計(jì)來做得更好,還是這會限制其帶來效益的速度?有人能完全理解他們所做決策的含義嗎?

  解決方案需要眾多利益相關(guān)者的共同努力,這在過去一直很困難。如今,軟件開發(fā)的速度遠(yuǎn)遠(yuǎn)超過了硬件的響應(yīng)速度,一些人希望人工智能能夠加快這一速度?!叭斯ぶ悄艿慕K極目標(biāo)是完全設(shè)計(jì)出能夠提高人工智能自身效率的芯片,”Normal 的 Maxim Khomiakov 說道。

中傳動網(wǎng)版權(quán)與免責(zé)聲明:

凡本網(wǎng)注明[來源:中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國傳動網(wǎng)(www.connectcrack.com)獨(dú)家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個(gè)人轉(zhuǎn)載使用時(shí)須注明來源“中國傳動網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請保留稿件來源及作者,禁止擅自篡改,違者自負(fù)版權(quán)法律責(zé)任。

如涉及作品內(nèi)容、版權(quán)等問題,請?jiān)谧髌钒l(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。

關(guān)注伺服與運(yùn)動控制公眾號獲取更多資訊

關(guān)注直驅(qū)與傳動公眾號獲取更多資訊

關(guān)注中國傳動網(wǎng)公眾號獲取更多資訊

最新新聞
查看更多資訊

熱搜詞
  • 運(yùn)動控制
  • 伺服系統(tǒng)
  • 機(jī)器視覺
  • 機(jī)械傳動
  • 編碼器
  • 直驅(qū)系統(tǒng)
  • 工業(yè)電源
  • 電力電子
  • 工業(yè)互聯(lián)
  • 高壓變頻器
  • 中低壓變頻器
  • 傳感器
  • 人機(jī)界面
  • PLC
  • 電氣聯(lián)接
  • 工業(yè)機(jī)器人
  • 低壓電器
  • 機(jī)柜
回頂部
點(diǎn)贊 0
取消 0