97视频在线观看免费高清完整版在线观看-69精品人人人人-爱的色放3-亚洲黄色一区-亚洲精品视频免费在线观看-男人天堂免费视频-久久久社区-日韩综合一区二区-色撸撸在线-蝌蚪av-国产乱淫视频-男生尿隔着内裤呲出来视频-人操人操-欧美鲁鲁-免费视频99-3级av-中国一级大黄大黄大色毛片-久久久欧美精品-99精品在线看-色峰视频-印度毛茸茸-国产福利毛片-国产极品999-69日韩-天天综合网国产

星空人工智能技術(shù)網(wǎng)

特寫(xiě)|萬(wàn)卡集群:管得好,才能算得強(qiáng)

 在“星空人工智能+”行動(dòng)深入推進(jìn)的當(dāng)下,算力基礎(chǔ)設(shè)施已成為國(guó)家戰(zhàn)略競(jìng)爭(zhēng)力的核心,而超大規(guī)模集群的運(yùn)維管控難題卻日益凸顯。中科曙光scaleX萬(wàn)卡超集群打造的智能管理體系,正以“能管住-管得穩(wěn)-用得好”的進(jìn)階邏輯,重塑超大規(guī)模算力基礎(chǔ)設(shè)施的運(yùn)行范式,讓萬(wàn)級(jí)節(jié)點(diǎn)協(xié)同從行業(yè)痛點(diǎn)變?yōu)楦咝СB(tài)。

999.jpg

集群管理的基石,始于數(shù)字孿生構(gòu)建的“鏡像世界”。曙光將物理集群的業(yè)務(wù)、節(jié)點(diǎn)、網(wǎng)絡(luò)、供配電等全鏈路映射至數(shù)字空間,實(shí)現(xiàn)全域透明可視與精準(zhǔn)管控。在此基礎(chǔ)上,智能運(yùn)維助手以“實(shí)時(shí)分析-智能診斷-根因定位-故障恢復(fù)”四步流程,為運(yùn)維人員提供一體化視圖,讓集群狀態(tài)“看得見(jiàn)、摸得著”。

三層閉環(huán)架構(gòu)的智能化運(yùn)維平臺(tái),推動(dòng)集群從“可觀測(cè)”升級(jí)為“可決策、可執(zhí)行”。

在數(shù)據(jù)可觀測(cè)層,全量采集指標(biāo)與日志等數(shù)據(jù),通過(guò)CMDB清晰呈現(xiàn)資產(chǎn)拓?fù)洌辉谥R(shí)與算法層,結(jié)構(gòu)化沉淀專(zhuān)家經(jīng)驗(yàn),以“規(guī)則+數(shù)據(jù)”雙驅(qū)動(dòng)實(shí)現(xiàn)精準(zhǔn)異常檢測(cè);在場(chǎng)景自動(dòng)化層,針對(duì)常見(jiàn)和關(guān)鍵場(chǎng)景,定義標(biāo)準(zhǔn)化流程,通過(guò)自動(dòng)化工具實(shí)現(xiàn)故障自愈與復(fù)盤(pán)。

這套體系最終將集群長(zhǎng)期可用性鎖定在99.99%,意味著30天內(nèi)不可用時(shí)間不足4分鐘,將“故障”變成系統(tǒng)自動(dòng)化處理的日常狀態(tài)。

穩(wěn)定性是底線,算力效率是核心競(jìng)爭(zhēng)力。scaleX萬(wàn)卡超集群已實(shí)現(xiàn)單集群支撐15000+節(jié)點(diǎn)、服務(wù)12萬(wàn)+用戶,每秒并發(fā)調(diào)度萬(wàn)級(jí)任務(wù),背后離不開(kāi)三大關(guān)鍵調(diào)度能力。數(shù)據(jù)親和性算法優(yōu)先“讓任務(wù)找數(shù)據(jù)”,規(guī)避冗余遷移;智能調(diào)度引擎動(dòng)態(tài)匹配任務(wù)與資源,平衡優(yōu)先級(jí)、公平性與成本;多元融合調(diào)度則兼容HPC、AI、云原生任務(wù),兼顧吞吐與隔離,配合存算傳緊耦合優(yōu)化,使AI加速卡利用率提升55%。

值得關(guān)注的是,這套管理體系與硬件創(chuàng)新深度協(xié)同。依托單機(jī)柜640卡的超高密度設(shè)計(jì)、浸沒(méi)相變液冷技術(shù)及自主研發(fā)的高速網(wǎng)絡(luò)scaleFabric,管理系統(tǒng)可充分釋放5EFlops總算力,同時(shí)將PUE控制在1.04,實(shí)現(xiàn)高效能與低能耗的統(tǒng)一。作為“AI計(jì)算開(kāi)放架構(gòu)”成果,scaleX萬(wàn)卡超集群兼容多品牌加速卡,適配400+主流大模型,覆蓋大模型訓(xùn)練、金融風(fēng)控等多元場(chǎng)景。

曙光用技術(shù)實(shí)踐證明,超大規(guī)模智算集群的終極目標(biāo),不是節(jié)點(diǎn)數(shù)量的堆砌,而是構(gòu)建自感知、自診斷、自修復(fù)、自優(yōu)化的智能算力基礎(chǔ)設(shè)施,期待與更多產(chǎn)業(yè)伙伴攜手,突破算力瓶頸,共建中國(guó)AI計(jì)算開(kāi)放的新生態(tài)。

星空人工智能技術(shù)網(wǎng) 倡導(dǎo)尊重與保護(hù)知識(shí)產(chǎn)權(quán)。如發(fā)現(xiàn)本站文章存在版權(quán)等問(wèn)題,煩請(qǐng)30天內(nèi)提供版權(quán)疑問(wèn)、身份證明、版權(quán)證明、聯(lián)系方式等發(fā)郵件至1851688011@qq.com我們將及時(shí)溝通與處理。!:首頁(yè) > 星空人工智能產(chǎn)業(yè) > 智能物聯(lián) » 特寫(xiě)|萬(wàn)卡集群:管得好,才能算得強(qiáng)

感覺(jué)不錯(cuò),很贊哦! ()
分享到:

相關(guān)推薦

留言與評(píng)論(共有 0 條評(píng)論)
   
驗(yàn)證碼: