開箱即用的UCloud大模型一體機,助力垂直大模型私有化交付 | 速途網
速途網8月1日訊(報道:喬志斌)Al生成與大模型,作為當今人工智能領域炙手可熱的話題,為相關產業鏈帶來新的機遇和挑戰。在 2023 世界人工智能大會上,優刻得分享了“中立安全云計算助力大模型發展”的技術產品、工程能力和生態建設等諸多能力,特別提到私有化是垂直大模型未來的發展方向。
面向政府、金融、教育、制造、基金等行業客戶及大模型企業的大模型私有化交付場景,優刻得推出國內第一款私有化大模型一體機,內置 UCloud自主研發的全棧私有云平臺,結合行業垂直大模型一體化交付給客戶,用戶可在企業內部一鍵部署大模型應用,安全便捷的提供AI訓練和推理等服務。
私有化大模型一體機,構建安全可靠的AI底座
隨著垂直行業大模型應用場景的豐富,企業為用戶提供大模型應用時,需要將大模型私有化部署,以保障大模型和數據隱私及安全合規性,同時與業務對接共同提供特定的AI場景服務。在此模式下,如何配置適合的計算、存儲、網絡及管理資源,以滿足私有化大模型訓練/推理任務的需求和安全要求,是私有化AI算力底座優先要解決的問題。
為實現大模型私有化交付,優刻得大模型一體機,基于一云多芯且自主可控的UCloudStack全棧私有云平臺,提供虛擬化、存儲、網絡及MaaS模型的私有化一體交付方案,支持Alpaca-LoRA、ChatGLM、T5、MiniGPT-4、Stable Diffusion、LLaMA2及Milvus向量數據庫等開源模型的部署及算力調度,用戶可在本地或自有數據中心內,輕松部署針對特定場景的大模型服務。

優刻得私有化大模型一體機具備以下幾大優勢:
1. 私有化算力中心 訓練推理專區建設
基于“東數西算”兩大自建數據中心——內蒙古烏蘭察布和上海青浦數據中心,UCloud大模型一體機為大模型訓練和應用提供低成本、高附加值的私有化算力服務。自建數據中心內,提供多款GPU大模型一體機算力資源,分別建設靈活可擴展的AI訓練和推理專區。

訓練區主要以A800/H800及未來更高性能GPU一體機進行集群建設,單集群規模最大可達2048卡規模,可將GPU卡直接透傳至訓練算力實例,并通過高帶寬、低延遲的高性能網絡設計和高性能并行存儲系統,打造互聯的高性能計算集群,實現多節點間無損通信,滿足用戶多節點并行計算,提升整體訓練效率。
推理區主要以通用GPU卡一體機進行建設,如T4/V100/V100S/A800,結合私有云的智能調度、彈性伸縮及資源編排進行推理業務覆蓋。同時基于運行環境一鍵打包和算力調度技術,實現訓練推理無縫切換和自助管理,并通過全面多維度安全保障體系,保障大模型和數據的安全。
2. 開箱即用一鍵部署 訓練推理無縫切換
UCloud大模型一體機,統一底層CPU、GPU、存儲及網絡資源,結合大模型與業務數據,為上層大模型預訓練或推理應用,提供靈活可靠的虛擬化、GPU計算、容器調度、安全隔離網絡、統一分布式存儲及數據庫緩存等云基礎設施,實現快速部署、簡化管理,助力AI應用高效交付穩定運行。
集成通用AI和大模型的GPU標準鏡像和模板,快速打包算力基礎運行環境并實現一鍵部署,支持運行環境模板的一鍵拉起,結合調度管理和分布式存儲系統,使得GPU算力環境,通過標準S3或NFS協議從存儲系統中拉取并加載大模型到內存中,進行預訓練或推理計算任務。
同時,在計算資源調度層面提供K8S容器調度服務,無縫對接云原生架構的資源調度和作業任務管理系統,用于模型切換、訓練任務、推理任務的作業管理。基于運行環境一鍵打包和算力調度技術,使得一體機既可作為訓練的算力運行環境,又可在訓練結束后,無縫切換至推理業務部署模式,確保基礎設施成本可控且安全。
3. 分布式存儲平臺 加速AI模型訓練
大模型訓練時,基礎設施需要提供高速讀寫能力、可擴展且可兼容POSIX的共享存儲系統,以滿足大規模數據集的訓練需求。UCloud大模型一體機基于UCloudStor統一分布式存儲,統一對外提供文件和對象存儲,可為訓練框架提供POSIX和K8S-CSI接口,便于算力調度接入,并結合冷熱數據分離的存儲形態,提升數據讀寫性能、加速AI模型訓練,滿足千卡規模訓練需求。

大模型一體機訓練集群底層依賴UCloudStor分布式對象存儲,用于存儲最終的數據。同時每個GPU算力實例上放置本地緩存,包括元數據和數據緩存。熱數據和元數據存儲在GPU計算實例掛載的高性能SSD/NVME云盤內,冷數據使用分布式存儲的對象存儲。
在大模型訓練數據訪問時,每個GPU計算實例均有多級緩存,第一級是基于內存的緩存,第二級是基于實例內SSD/NVME云盤,只有實例云盤緩存沒有命中時,才會訪問第三級對象存儲。熱數據緩存在GPU實例緩存磁盤上,通過預取可最大化發揮算力性能,達到加速數據I/O的效果。
4. 高性能計算網絡 高效率模型訓練
私有化大模型訓練場景下,需基礎設施提供高帶寬和低延遲的網絡連接,以支持大規模數據傳輸和分布式訓練。UCloud大模型一體機基于RDMA RoCE網絡模型,構建單計算實例1.6T ETH RDMA網絡,為私有化大模型訓練和調試提供高性能計算網絡,提升GPU利用率,降低通信時延,提高大模型訓練效率。

大模型一體機可分別搭配8張GPU卡和200G RDMA網卡,平臺采用直通模式將GPU和網卡直接透傳給GPU計算實例,結合高性能RDMA RoCE無損物理網絡架構,支持自動化網絡隔離和配置,實現單實例1.6T帶寬計算網絡高性能接入,大幅提升GPU利用率并降低通信時延,為大模型訓練跨節點通信提供強力支撐。
在高可用保障上,通過一體機智能調度和分布式存儲機制,為GPU計算實例、云業務網絡及存儲的可用性和可靠性提供保障,云化業務網絡與模型計算網絡自適應通信;并通過實時的全棧監控和一鍵巡檢監控大模型業務系統,實現性能實時監控故障告警,保障大規模業務部署和運行效率。
5. 大模型信創一體機 自主可控安全可靠
UCloud私有化大模型一體機,支持“一云多芯”,兼容x86和國產化信創服務器,從芯片到應用全面適配信創體系,可支持x86、ARM及GPU 等異構算力統一管理和調度,保證大模型和信息數據安全,滿足金融、政府、運營商及更多傳統企業的國產化需求。平臺還對信創生態的CPU、服務器及操作系統進行全面適配,形成信創一體機交付模式,使大模型可以和國產CPU相兼容并進行統一調度管理。
在GPU計算方面,平臺通過GPU直通模式將GPU資源池化,使國產GPU和AI加速卡無縫透傳給算力虛擬機實例,使得一鍵部署的大模型算力環境可兼容所有GPU和AI加速卡,搭配高性能存儲有效提升計算處理效率,為上層大模型的訓練和推理應用提供全信創體系的云化基礎設施。
此外,大模型一體機基于UCloud公有云,歷經 10 年大規模磨煉和驗證,保證平臺底層的穩定性;平臺代碼自研率達96%以上,為業界領先水平,自主可控、安全可靠。
6. 全面多維度的安全保障體系
一體機私有云平臺提供全面的安全保障體系,從網絡、賬號、資源、審計、監控等多維度保障平臺大模型和數據安全,并可結合信息安全等級保護三級保證業務的安全性。
>一體機通過安全隔離VPC網絡保障大模型業務的網絡隔離性,VPC內默認內網不通,租戶內和租戶間不同VPC網絡默認不通,同時結合安全組提供計算存儲等服務東西和南北向流量安全訪問控制。
>通過多租戶隔離,提供資源隔離和精細化權限控制,不同租戶之間資源完全隔離,互不影響。在物理資源層面,支持對大模型運行的計算存儲物理資源進行權限控制,用于將部分物理資源獨享給一個或部分用戶使用,從物理層面保證資源隔離和安全性。
>在數據存儲方面,提供存儲加密及在線芯片加密特性,保護大模型和數據不被未經授權的訪問者獲取,甚至在磁盤丟失或被盜的情況下也可保證數據的機密性,實現私有化大模型在企業內部的安全性。
>此外,一體機私有云平臺擁有全面的日志審計和事件管理能力,具備安全分析、資源變更追蹤及合規性審計的功能。通過統一監控告警服務,實現大模型一體機全線產品的運維監控及告警服務,全方位保障業務的可靠性和安全性。
7. 開箱即用的私有MaaS服務
UCloud基于私有化大模型一體機提供MaaS服務,從大模型訓練推理的多樣化場景出發,為客戶推薦機型提供預裝部分工具的鏡像,支持各種開源大模型,可覆蓋知識推理、問答、圖文生成、中文語義及繪畫設計等 AI 應用領域,為用戶快速搭建大模型的微調或推理環境。
值得一提的是,UCloud一體機私有云平臺還具備業務無感故障自愈的特性,算力資源將優先選擇低負荷節點進行虛擬資源部署,并提供打散部署、在線遷移、離線遷移及宕機遷移等能力,整體保證客戶私有MaaS服務的可靠性和可用性。
另一方面,UCloud大模型一體可提供負載均衡、數據庫及緩存服務,為大模型應用的計算調度、管理服務、API接口及AI應用提供接入負載均衡的能力,保證應用服務的高可用和負載分發;同時為模型服務應用提供可自動化運維的MySQL及 Redis 服務,讓用戶專注業務創新。
AIGC繪畫大模型,私有化實踐應用
AIGC繪畫服務PICPIK.AI是UCloud私有化一體機的實踐應用。PICPIK.AI提供了一種全新的方式,允許用戶利用“AI繪畫垂直模型”的能力進行AI藝術創作,提供AI WEB端和PhotoShop插件,賦予設計師無與倫比的創造力和精確性,創作出令人驚艷的視覺杰作。

UCloud大模型一體機打包了GPU服務器、磁盤及通用網絡設備,為AI繪畫大模型提供IaaS層虛擬化、GPU虛擬機、服務鏡像、塊存儲及安全隔離網絡,可快速部署并運行資源調度、進行作業任務管理、AI繪畫計算服務、AI繪畫管理及接口服務。通過負載均衡服務實現管理服務接口高可用、負載分發,保證繪畫業務的可用性。

平臺還提供對象存儲和文件存儲服務,為AI繪畫大模型提供統一存儲平臺,兼容標準S3和NFS 接口,可與傳統應用和新型應用無縫對接。同時可將AI 繪畫模型和業務服務生成的圖片進行數據存儲,并提供統一入口實現WEB服務,可在PhotoShop直接進行圖片下載。
在網絡部署和隔離方面,可通過一體機提供的VPC隔離網絡結合安全組進行部署和規劃,從而保證網絡訪問隔離性和安全性。

>UCloud大模型一體機均部署至客戶托管或自建的數據中心,內置私有云平臺,管理權限交付至模型提供方。
>通過云平臺虛擬機服務,將繪畫GPU算力服務、模型對象存儲服務、管理調度服務均部署于獨立VPC隔離網絡內的不同子網。
>算力、存儲及管理調度服務實例均在VPC內網通信,并通過內網安全組進行網絡訪問控制和隔離。
>管理調度服務中算法API服務對外通過彈性外網IP對客戶網絡開放算法服務API。
>外網 IP網絡和客戶內網在同一個網絡面,AI繪畫 WEB 客戶端和 PS 插件可直接通過 網絡訪問API服務,并可通過外網安全組進行網絡訪問控制和隔離。
>AI繪畫計算服務推理出的圖片,通過VPC網絡將圖片存儲于對象存儲或文件存儲中,客戶端可直接通過平臺提供的外網IP下載對象存儲中的圖片。
云計算是通過云端提供海量算力和安全保障,而私有云是將算力和安全保障私有化交付到客戶的數據中心,并提供資源智能調度、業務高可靠高可用等機制,結合全面統一的云管理服務,為大模型業務私有化降本增效。
作為中立安全的云計算廠商,UCloud也成為了大模型入口處的鋪路人。本次推出的UCloud私有化大模型一體機,可同時為多種垂直大模型業務提供業務云化部署和資源調度服務,并可結合UCloudStor統一分布式存儲和USDP智能大數據平臺為大模型推理和預訓練業務,提供數據湖存儲及流批一體數倉構建解決方案,提高大模型業務私有化的交付及運維管理效率。
未來,UCloud將全面擁抱大模型,通過自建數據中心、算力資源和工程服務能力,結合超10年云計算技術沉淀,為更多客戶及大模型公司提供算力及基礎設施服務,賦能千行百業。