隨著生成式人工智能的迅速發(fā)展,催生出大量新場(chǎng)景、新業(yè)態(tài)、新模式,引發(fā)智能算力需求爆發(fā)式增長(zhǎng),AI算力已經(jīng)成為推進(jìn)發(fā)展新質(zhì)生產(chǎn)力的重要引擎,對(duì)以云網(wǎng)融合為核心特征的數(shù)字信息基礎(chǔ)設(shè)施提出更高的要求。根據(jù)中國(guó)電信發(fā)布的《AI算力服務(wù)器(2023-2024年)集中采購(gòu)項(xiàng)目》顯示,本次集采規(guī)模超80億元,包括AI服務(wù)器4175臺(tái)以及IB交換機(jī)1182臺(tái),其中國(guó)產(chǎn)算力占整體采購(gòu)數(shù)量的47.35%。其中神州鯤泰系列服務(wù)器入選標(biāo)包3和標(biāo)包4(風(fēng)冷、液冷智算服務(wù)器),中標(biāo)金額超1.1億元。
算網(wǎng)融合
構(gòu)筑堅(jiān)實(shí)的算力基礎(chǔ)
近年來(lái),中國(guó)電信持續(xù)推動(dòng)數(shù)字信息基礎(chǔ)設(shè)施演進(jìn)升級(jí),規(guī)劃并建設(shè)全國(guó)“2+3+7+X”公共智算云池,在京津冀、長(zhǎng)三角建設(shè)國(guó)內(nèi)領(lǐng)先的萬(wàn)卡全液冷智算集群,在廣東、江蘇等5省打造千卡資源池,滿足AI訓(xùn)推需求,截至目前,中國(guó)電信智算總規(guī)模達(dá)到21EFLOPS。
打造算網(wǎng)融合的公共智算云池,需要將運(yùn)營(yíng)商核心網(wǎng)絡(luò)池化升級(jí),神州鯤泰智算服務(wù)器搭載“鯤鵬+昇騰”處理器,通過(guò)標(biāo)準(zhǔn)的IT虛擬化技術(shù),把網(wǎng)絡(luò)設(shè)備統(tǒng)一到工業(yè)化標(biāo)準(zhǔn)的高性能、大容量的服務(wù)器、交換機(jī)和存儲(chǔ)平臺(tái)上,建立統(tǒng)一體系,實(shí)現(xiàn)軟硬件標(biāo)準(zhǔn)的統(tǒng)一并充分解耦,模塊化的軟硬件搭配能形成更靈活的配置。神州鯤泰打造的眾核架構(gòu)以及虛擬化技術(shù)生態(tài),幫助運(yùn)營(yíng)商客戶將多個(gè)物理服務(wù)器資源整合到單一物理服務(wù)器上,有效實(shí)現(xiàn)了資源的共享和高效利用。神州鯤泰通過(guò)匹配運(yùn)營(yíng)商客戶統(tǒng)一的算力封裝標(biāo)準(zhǔn),形成自動(dòng)化的算力感知與狀態(tài)傳播,有效適應(yīng)不同業(yè)務(wù)規(guī)模和需求的變化,充分響應(yīng)數(shù)字時(shí)代AI業(yè)務(wù)靈活多變的實(shí)際需求。
在神州鯤泰智算服務(wù)器的支持下,電信加速推動(dòng)數(shù)據(jù)中心向AIDC升級(jí),強(qiáng)化智算中心對(duì)算力資源的彈性部署,針對(duì)智能算力異構(gòu)和分散化等問(wèn)題,構(gòu)建分布式智算集群,突破單體智算中心的算力、空間、供電等資源限制,為跨地域、跨層級(jí)、跨主體的算力協(xié)同調(diào)度奠定基礎(chǔ)。
靈活調(diào)度
打造一體化智算服務(wù)平臺(tái)和運(yùn)營(yíng)體系
在打造算力基礎(chǔ)設(shè)施的前提下,中國(guó)電信正全面升級(jí)自身的智能云能力體系,加快構(gòu)建一體化智算服務(wù)體系和能力,提供強(qiáng)大的算網(wǎng)調(diào)度能力、高效的異構(gòu)計(jì)算能力、一站式的訓(xùn)推服務(wù)能力和豐富的落地應(yīng)用,推動(dòng)算網(wǎng)調(diào)度、技術(shù)架構(gòu)、訓(xùn)練推理和資源管理等“四個(gè)一體化”的發(fā)展。
為有效應(yīng)對(duì)運(yùn)營(yíng)商多云異構(gòu)的智算需求,神州鯤泰打造異構(gòu)智算調(diào)度運(yùn)營(yíng)平臺(tái)HISO、異構(gòu)智算加速平臺(tái)HICA,幫助高效管控在多云異構(gòu)環(huán)境下的算力資源調(diào)度。其中異構(gòu)智算調(diào)度運(yùn)營(yíng)平臺(tái)HISO能實(shí)現(xiàn)GPU資源虛擬化或池化,完成跨集群之間的算力調(diào)度;異構(gòu)智算加速平臺(tái)HICA解決集群內(nèi)部的算力調(diào)度優(yōu)化問(wèn)題,幫助客戶在多云異構(gòu)環(huán)境下顯著提升算力使用效率。在項(xiàng)目的前期適配中,神州鯤泰智算系列服務(wù)器能快速完成對(duì)客戶算力調(diào)度平臺(tái)的適配工作,通過(guò)算數(shù)協(xié)同、多級(jí)調(diào)度等技術(shù),有效推動(dòng)異構(gòu)算力的標(biāo)準(zhǔn)化接入納管,促進(jìn)一體化算力調(diào)度體系加速形成。從而在面向行業(yè)大模型訓(xùn)推場(chǎng)景時(shí),能通過(guò)一站式智算服務(wù)實(shí)現(xiàn)大模型訓(xùn)推,將訓(xùn)練效率提升50%,推理效率提升28%,并通過(guò)全鏈路監(jiān)控保障訓(xùn)練質(zhì)量。
綠色智算
節(jié)能環(huán)保
隨著各種高性能芯片的發(fā)展,導(dǎo)致數(shù)據(jù)中心熱流密度明顯升高,而電子器件失效的主要原因就是溫度過(guò)高,高能耗導(dǎo)致高故障,散熱需求推動(dòng)液冷解決方案的發(fā)展。值得注意的是,此次采購(gòu)中液冷服務(wù)器作為單獨(dú)標(biāo)包進(jìn)行集采且份額不小,體現(xiàn)出液冷技術(shù)在智算中心建設(shè)中的重要性正在提升,液冷技術(shù)及解決方案有望迎來(lái)新發(fā)展。
神州鯤泰此次提供的產(chǎn)品中包含液冷解決方案服務(wù)器,通過(guò)一體化冷板,智能流量調(diào)節(jié)來(lái)提升系統(tǒng)的散熱效率,采用負(fù)壓管線系統(tǒng),漏液近端探測(cè)技術(shù),并聯(lián)動(dòng)服務(wù)管控系統(tǒng)提升冷卻系統(tǒng)的可靠性,有效降低30%的節(jié)點(diǎn)能耗。而為了幫助客戶規(guī)避接口多、接頭復(fù)雜、現(xiàn)場(chǎng)實(shí)施部署難度大、實(shí)施周期長(zhǎng)等難題。通過(guò)采用一體化交付方式,神州鯤泰液冷解決方案產(chǎn)品在有效降低部署和運(yùn)維的復(fù)雜度的同時(shí),還能實(shí)現(xiàn)100%全液冷及高性價(jià)比液冷方案,助力數(shù)據(jù)中心PUE邁向1.15,并且憑借60KW+的最大單柜功率,實(shí)現(xiàn)1.5倍于行業(yè)平均水平的能效比,在為客戶提供強(qiáng)大算力的同時(shí)有效控制能耗成本。
數(shù)字信息基礎(chǔ)設(shè)施為人工智能提供了充足的計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)資源,承載了豐富算法模型和海量高質(zhì)量數(shù)據(jù),支持人工智能應(yīng)用與場(chǎng)景快速對(duì)接,加速數(shù)據(jù)要素匯聚流通。神州鯤泰智算服務(wù)器正在幫助運(yùn)營(yíng)商客戶打造更大帶寬、更高速率、更低時(shí)延、更加可靠和更大彈性的算力網(wǎng)絡(luò),借助鯤鵬處理器以及昇騰AI處理器的能力,加速AI算力與產(chǎn)業(yè)應(yīng)用融合,持續(xù)推動(dòng)數(shù)據(jù)要素價(jià)值釋放。