當一種新型藥物的分子設計周期從 18 個月壓縮至 12 個月,當一款高性能復合材料的微觀結構模擬時間從 72 小時縮短到 43 小時…… “智算 +AI 模型”正在重塑研發(fā)創(chuàng)新的速度。青云科技為某專注生命科學及材料科學的大型新制造集團構建的 AI 智算平臺,正在成為其重塑研發(fā)范式的創(chuàng)新引擎,單是實驗成本,每年即可節(jié)省 4 億元。
打破異構、異地局限,統(tǒng)一調(diào)度算力資源
對于布局全國的大型集團而言,各個基地的研發(fā)團隊都有 GPU 資源和模型推理的需求,GPU 型號眾多,算力資源的異構與分散管理曾是制約集團創(chuàng)新的隱形壁壘。比如,某個團隊急需算力時,異地資源因調(diào)度不暢而無法及時響應,研發(fā)效率大受影響。通過青云 AI 智算平臺,集團實現(xiàn)了總部與各研發(fā)基地算力資源的統(tǒng)一調(diào)度與管理:
● 實現(xiàn)跨區(qū)域、跨型號 GPU 資源的統(tǒng)一納管,研發(fā)人員無論身處何地,都能通過同一平臺賬號,按需獲取智算資源與服務,即來即用。
● 如果有新部署的算力集群,集團可在 48 小時內(nèi)完成調(diào)試并納入全局調(diào)度體系,確保在擴容時,算力與服務能快速上線。
● 跨區(qū)域數(shù)據(jù)傳輸與模型協(xié)同效率提升 60%,讓團隊間的協(xié)作更順暢。
靈活支撐復雜科研場景,GPU 利用率大幅提升
醫(yī)藥分子動力學模擬、新材料微觀結構分析等高度依賴 GPU 算力(包括AI算力、HPC算力)的場景,往往伴隨著復雜的運行環(huán)境。通過青云AI智算平臺,集團在確保復雜科研場景順暢運行的同時,大幅提升了 GPU 利用率:
● 采用業(yè)界領先的 GPU 虛擬化技術,在保證計算性能損失率低于 5% 的前提下,實現(xiàn) GPU 資源的精細化分配與高效利用。
● 通過GPU 算力切分與共享,讓 GPU 資源不再閑置。研發(fā)人員可根據(jù)任務需求申請 1/4、1/2 、1/8 卡的算力,小任務無需等待整塊顯卡空閑,大任務可聚合多卡算力協(xié)同處理。
● 通過預置醫(yī)藥研發(fā)、材料科學等領域的專用鏡像庫,實現(xiàn)分鐘級的開發(fā)、訓練環(huán)境啟動。比如,從登錄平臺到開始分子動力學模擬,整個過程從原來的 2 小時縮短至 15 分鐘。
集團統(tǒng)一運營運維,管理更省心
在多區(qū)域、多場景的算力服務體系中,高效的運維運營能力是平臺穩(wěn)定運轉的核心保障。通過青云 AI 智算平臺,集團實現(xiàn)了流程自動化的提升,管理更省心:
● 管理員通過直觀易用的界面,完成配額設置與管理、資源分配策略調(diào)整等運營工作,對資源使用情況、硬件設備的運行狀態(tài)、系統(tǒng)性能等指標實時掌控。
● 在故障處理方面,平臺內(nèi)置的 1000+ 故障特征庫能精準識別問題,一旦發(fā)現(xiàn)異常,系統(tǒng)會通過短信、郵件、平臺通知等多渠道及時發(fā)出告警,提供詳細的故障定位信息,常見問題實現(xiàn)分鐘級自愈,將故障對研發(fā)工作的影響降到最低。
AI 智算平臺的上線,給集團的業(yè)務創(chuàng)新提供了穩(wěn)定、高效的支撐:對于科研團隊而言,減少了等待算力、調(diào)試環(huán)境的時間,跨研發(fā)基地的模型協(xié)同也不再受地域限制;對集團管理來說,分散的 GPU 資源被盤活,算力利用率提升帶來了成本優(yōu)化,運維團隊從重復排障中解放出來,能夠更專注地支撐核心研發(fā)需求。