智算中心作為AI時代必備的算力基礎設施,正承載著AI繁榮發(fā)展的數(shù)據(jù)運算需求。在智算中心建設如火如荼之際,如何提升智算中心利用率,成為亟待解決的問題。
智算中心利用率待提升
智算中心通過算力生產(chǎn)、聚合、調度和釋放,面向政府、企業(yè)、高校和科研機構等提供普惠公共算力服務。智算中心在建設和運營過程中,面臨算力使用率不高、算力結構不合理、應用生態(tài)不完善、運營模式不成熟等諸多問題。其中,算力使用率不高是智算中心面臨的主要問題之一。
浪潮信息AI和HPC產(chǎn)品線總經(jīng)理劉軍表示,智算中心建設初期,由于應用生態(tài)不完善,算力規(guī)模與用戶需求不匹配,導致算力空閑率較高。據(jù)浪潮人工智能研究院測算,我國智算中心平均算力使用率為30%左右,遠低于大型數(shù)據(jù)中心的50%~60%的水平。
影響算力利用率的五大因素
算力利用率涉及軟硬件、網(wǎng)絡、訓練策略及算力調度等多個層面。根據(jù)中國信通院發(fā)布的《智算基礎設施發(fā)展研究報告(2024年)》,影響算力利用率的關鍵因素包括芯片存儲量、算力損耗、“通信墻”即多卡互聯(lián)與多機互聯(lián)時面臨的通信瓶頸等。

硬件配置方面,使用高性能計算節(jié)點,如專業(yè)的AI芯片或高端GPU,以確保單節(jié)點的計算能力最大化。同時,根據(jù)AI訓推任務的需求,合理配置服務器的內存、存儲和I/O性能。英偉達中國區(qū)技術總監(jiān)表示,“GPU的算力利用率受到內存帶寬和訪存效率的影響。通過引入高帶寬內存(HBM)和優(yōu)化內存訪問模式,可以顯著提升GPU的計算效率!
軟件與算法方面,AI訓練需匹配更高效的深度學習框架,另外,還要對算法進行并行化處理,以充分利用多核處理器及多GPU優(yōu)勢。華為相關人員表示,“當前算力利用率不足的問題,很大程度上源于軟件層面的瓶頸。通過優(yōu)化編譯器、運行時的環(huán)境,以及算法本身,可以顯著提高算力資源的使用效率!
網(wǎng)絡性能方面,在構建高性能計算集群時,選擇合適的網(wǎng)絡架構至關重要。有數(shù)據(jù)表明,網(wǎng)絡的丟包率達到1%時,智算中心集群中的GPU利用率就會在原有基礎之上下降 50%。目前一些智算集群就采用了高效的InfiniBand、RoCE網(wǎng)絡,以充分滿足AI大規(guī)模并行計算要求。阿里巴巴達摩院相關負責人表示, “在大規(guī)模分布式計算中,通信延遲是一個重要的瓶頸;赗DMA的高速互聯(lián)技術,以減少節(jié)點間的通信開銷,從而提升整體算力利用率。”
在AI訓練策略上,采用數(shù)據(jù)、模型或流水線并行等分布式訓練方式,并采用更高效的資源管理與調度器,利用緩存機制及訓前預熱策略,通過調整及優(yōu)化超參數(shù)等措施,也可以顯著提升算力集群的性能和效率。微軟亞洲研究院研究員表示,“模型訓練過程中的算力利用率往往受到數(shù)據(jù)預處理和批量大小的影響。通過合理的數(shù)據(jù)預處理和動態(tài)調整批量大小,可以有效提高模型訓練的效率。”
算力調度也是影響算力利用率的因素。騰訊云副總裁劉杉表示,提高算力利用率的關鍵在于精細化的資源管理。智能調度系統(tǒng),可以根據(jù)任務特性和實時負載情況,動態(tài)調整資源分配,確保每個任務都能獲得最佳的執(zhí)行環(huán)境! 清華大學計算機系教授陳文光表示,在大規(guī)模并行計算中,任務調度和負載均衡是非常重要的。
四大舉措提升算力利用率
針對智算中心利用率不高的問題,業(yè)界專家建議從算力多元化、算力調度、應用生態(tài)、運營模式四個方面入手,提升智算中心利用率。
一是推動算力多元化,滿足不同場景需求。智算中心應提供多元化的算力,滿足不同行業(yè)、不同應用場景的需求。例如,針對圖像處理、語音識別等場景,智算中心應提供高性能的GPU算力;針對自然語言處理、推薦系統(tǒng)等場景,智算中心應提供高效的CPU算力;針對自動駕駛、智能制造等場景,智算中心應提供高可靠的FPGA算力。
二是加強算力調度,實現(xiàn)算力資源高效利用。算力多元化要求智算中心具備異構算力融合能力。算力調度是算力資源效率最大化的路徑。算力調度需要解決算力資源異構性、算力需求動態(tài)性、算力資源分布性等挑戰(zhàn)。算力調度將算力資源在不同用戶、不同應用、不同時間進行動態(tài)分配和優(yōu)化,以提高算力資源利用率和降低算力成本。目前,地方政府、科研機構、算力企業(yè)等多方主體積極布局算力調度領域。據(jù)不完全統(tǒng)計,目前國內在建和已經(jīng)建設的算力調度平臺超過20個。

從算力多元化、算力調度、應用生態(tài)、運營模式四個方面入手,提升智算中心利用率。
三是完善應用生態(tài),促進算力與數(shù)據(jù)、算法協(xié)同。應用生態(tài)是指基于智算中心提供的算力資源,構建面向不同行業(yè)、不同應用場景的算法模型和應用軟件。完善的應用生態(tài)可以吸引更多用戶使用智算中心提供的算力資源,從而提高算力利用率。
完善應用生態(tài)需要政府、企業(yè)、高校和科研機構等多方共同努力。政府應加強政策引導,鼓勵企業(yè)、高校和科研機構基于智算中心開展算法模型和應用軟件研發(fā);企業(yè)應加強與高校和科研機構的合作,共同推動算法模型和應用軟件的研發(fā)和應用;高校和科研機構應加強對人工智能領域人才的培養(yǎng)和引進,為算法模型和應用軟件的研發(fā)提供人才支撐。
四是創(chuàng)新運營模式,實現(xiàn)算力資源可持續(xù)運營。智算中心建設投資大、運營成本高,如何實現(xiàn)算力資源的可持續(xù)運營是智算中心面臨的又一挑戰(zhàn)。創(chuàng)新運營模式,實現(xiàn)算力資源的共享、交易和增值服務,是提高算力利用率、降低運營成本的有效途徑。
創(chuàng)新運營模式需要政府、企業(yè)、用戶等多方共同參與。政府應加強政策引導,鼓勵企業(yè)開展算力資源共享和交易;企業(yè)應加強與用戶的合作,共同探索算力資源的共享、交易和增值服務模式;用戶應積極參與算力資源的共享和交易,降低自身算力成本。