211高校的VMware遷移之路:遷至深信服云平臺,更高效、更穩(wěn)定
某211高校為國家 “雙一流” 建設(shè)高校、省一流大學,在教育領(lǐng)域占據(jù)舉足輕重的地位。其教學單位構(gòu)成豐富多元,學科體系廣泛而全面。然而,學校面臨著VMware虛擬化平臺維保到期、服務器老化等嚴峻挑戰(zhàn),嚴重干擾了教學、科研及管理工作的有序開展。為確保各項業(yè)務平穩(wěn)過渡與升級,學校決定采用深信服超融合替換原有的VMware,以實現(xiàn)網(wǎng)絡(luò)可視化、智能監(jiān)控與告警,并構(gòu)建高效的災難恢復能力,為智慧校園的建設(shè)奠定堅實的基礎(chǔ)。
一、 現(xiàn)狀與挑戰(zhàn)
(一) 平臺維保問題
VMware虛擬化平臺維保到期,平臺廠商停止提供售后服務和升級服務,給學校使用帶來諸多不便,潛在風險增加。
影響:隨著學校業(yè)務的發(fā)展,對平臺的穩(wěn)定性和功能要求越來越高,維保到期可能導致平臺出現(xiàn)故障,影響教學、科研和管理工作的正常進行。
(二) 服務器老化問題
大量硬件服務器老舊過保,頻繁宕機,已經(jīng)影響到正常業(yè)務運行。
影響:服務器老化嚴重降低了系統(tǒng)的可靠性和穩(wěn)定性,導致業(yè)務中斷頻繁,不僅影響了工作效率,還可能造成數(shù)據(jù)丟失和業(yè)務損失。
(三)資源瓶頸問題
學校現(xiàn)有內(nèi)存資源和存儲資源使用率已達80%,而建議計算資源使用率不超過70%。隨著智慧校園建設(shè)的推進,信息化業(yè)務不斷增加,新業(yè)務將逐步上線,當前云平臺資源無法滿足未來3 - 5年的擴展需求。
影響:資源不足將限制學校業(yè)務的發(fā)展,導致系統(tǒng)性能下降,用戶體驗變差,無法滿足教學、科研和管理工作對信息化資源的需求。
(四)管理混亂問題
學校目前有多個虛擬化平臺管理端,登錄入口分散,管理員需要分別登錄不同入口操作不同服務器,多個平臺之間缺乏統(tǒng)一管理、流程打通和調(diào)度,無法有序結(jié)合。
影響:管理混亂增加了運維成本和難度,降低了工作效率,容易出現(xiàn)錯誤和漏洞,影響系統(tǒng)的整體穩(wěn)定性和安全性。
(五)災備機制不完善問題
學校當前災備機制不完善,僅有備份一體機且空間有限,僅對部分數(shù)據(jù)進行備份,大量重要業(yè)務數(shù)據(jù)未建立備份。同時,多校區(qū)數(shù)據(jù)中心之間容災機制尚未建立,缺乏有效的異地災備機制。
影響:在面對電力故障等突發(fā)情況時,業(yè)務無法快速恢復,可能導致數(shù)據(jù)丟失和業(yè)務中斷,給學校帶來嚴重的損失。
二、整體方案
通過本次項目建設(shè)助力學校信息化實現(xiàn)以下目標:
1. 先進替換目標
對原VMware服務器虛擬化承載的核心業(yè)務進行逐步替換,采用先進廠家平臺,提高學校信息化系統(tǒng)的穩(wěn)定性和可靠性,為學校的發(fā)展提供有力保障。
2. 統(tǒng)一平臺納管目標
搭建統(tǒng)一資源管理平臺,將VMware虛擬化平臺、物理服務器資源以及GPU場景等資源由統(tǒng)一云計算管理平臺納管,統(tǒng)一進行資源調(diào)度和分配,提高學校數(shù)據(jù)中心設(shè)施利用率,避免重復 投資 ,同時降低運維成本。另外通過SCP云管平臺統(tǒng)一納管多資源池,包括全閃資源池、混閃資源池、容災資源池、VMware利舊資源池。
(1)納管超融合資源池
(2)納管VMware資源池
3. 建立高穩(wěn)定、高可靠的業(yè)務管理平臺目標
利用高配置服務器搭建資源池集群,滿足學校關(guān)鍵業(yè)務和通用業(yè)務的穩(wěn)定承載,通過云平臺內(nèi)存ECC、主機、磁盤、RAID 亞健康檢測、HA、DRS等機制實現(xiàn)高可靠性,確保學校核心業(yè)務的穩(wěn)定運行,提高系統(tǒng)的可靠性和可用性,為教學、科研和管理工作提供堅實的支撐。
4. 構(gòu)建一朵安全的云目標
全面提高云平臺整體安全性,充分考慮網(wǎng)絡(luò)安全功能及其擴展功能,包括虛擬機橫向流量隔離能力、虛擬機殺毒能力、網(wǎng)絡(luò)層安全防護能力、應用層安全防護能力等。保障云平臺的安全運行,防止網(wǎng)絡(luò)攻擊、數(shù)據(jù)泄露等安全事件的發(fā)生,保護學校的信息資產(chǎn)和師生的個人信息安全。
5. 建立一體化的災備體系目標
依據(jù)教育部相關(guān)規(guī)范要求,構(gòu)建集中化的災備體系,實現(xiàn)數(shù)據(jù)集中備份,健全備份策略和恢復機制,確保在突發(fā)情況下業(yè)務能夠快速恢復。提高學校的災備能力,保障數(shù)據(jù)的安全性和可用性,降低因災難導致的業(yè)務損失。
6. 一整套平滑虛擬化遷移服務目標
基于成熟方法論和工具,將VMware平臺中的不同業(yè)態(tài)、不同架構(gòu)和停機要求的虛擬機平滑穩(wěn)定地遷移至新平臺,確保業(yè)務的連續(xù)性和穩(wěn)定性。實現(xiàn)業(yè)務的平滑遷移,減少對學校教學、科研和管理工作的影響,確保業(yè)務的正常運行。
三、 業(yè)務遷移
( 一 ) 信息收集
1. 目標
全面了解VMware平臺的現(xiàn)有配置和運行狀況,為后續(xù)遷移方案的精準設(shè)計提供詳細、準確的數(shù)據(jù)基礎(chǔ)。
識別不同業(yè)務系統(tǒng)在硬件、軟件和網(wǎng)絡(luò)層面的依賴關(guān)系和特性,確保遷移過程中不丟失任何關(guān)鍵信息,保障業(yè)務的完整性和連續(xù)性。
2. 關(guān)鍵點
通過獲取主機、虛擬機、存儲、網(wǎng)絡(luò)等全面信息,能夠提前評估遷移的難度和風險,為制定合理的遷移計劃和資源分配提供依據(jù)。
準確的信息收集有助于避免在遷移過程中因配置不匹配或信息缺失導致的業(yè)務中斷和數(shù)據(jù)丟失,提高遷移的成功率和效率。
3. 細致入微的信息收集過程
( 1 ) 主機信息目標: 明確平臺的計算資源和基礎(chǔ)架構(gòu)信息,了解主機的性能瓶頸和潛在風險點。
重點關(guān)注點: 為評估平臺是否滿足業(yè)務需求以及確定新平臺的資源配置提供關(guān)鍵數(shù)據(jù),確保遷移后的性能提升。例如,通過獲取CPU總?cè)萘亢蛢?nèi)存總?cè)萘康刃畔?可以合理規(guī)劃新平臺的硬件選型和資源分配,避免資源浪費或不足。
導出CSV報告,獲取平臺CPU總?cè)萘?內(nèi)存總?cè)萘?共有11臺主機,vCenter版本為6.0。
( 2 ) 虛擬機信息目標: 掌握虛擬機的配置細節(jié),包括硬件、存儲和網(wǎng)絡(luò)設(shè)置,以便在遷移過程中準確復制和恢復虛擬機環(huán)境。
重點關(guān)注點: 保障虛擬機在遷移后能夠正常運行,維持業(yè)務系統(tǒng)的正常服務。例如,對于具有特殊配置的虛擬機,如掛載外置存儲LUN卷的虛擬機,準確的信息收集有助于選擇合適的遷移方式,避免數(shù)據(jù)丟失和業(yè)務中斷。
登錄VMware vSphere Web Client客戶端,進入虛擬機和模板視圖,導出虛擬機相關(guān)配置信息。對于有快照回滾、配置SR - IOV直通類型網(wǎng)卡、磁盤為RDM類型或者虛擬磁盤為獨立模式、掛載外置存儲LUN卷的虛擬機,不能通過VMware納管方式遷移,建議采用SCMT有代理方式遷移。
( 3 ) 其他信息( HA&DRS 配置、存儲信息、集群網(wǎng)絡(luò)信息和操作系統(tǒng)信息等)目標: 全面了解平臺的高級配置、存儲架構(gòu)、網(wǎng)絡(luò)拓撲和操作系統(tǒng)環(huán)境,確保遷移過程中這些關(guān)鍵組件的兼容性和正常運行。
重點關(guān)注點: 這些信息對于構(gòu)建穩(wěn)定、可靠的新平臺至關(guān)重要。例如,存儲信息的收集有助于規(guī)劃新平臺的存儲策略,確保數(shù)據(jù)的高效存儲和訪問;操作系統(tǒng)信息的收集則可以提前解決兼容性問題,保障業(yè)務系統(tǒng)在新平臺上的順利運行。
HA&DRS 配置: 查看群集HA策略,已啟用DRS,策略為全自動,遷移至HCI后將啟用HA機制和DRS全自動。
存儲信息收集: 登錄VMware vSphere Web Client控制臺,點擊集群名稱,進入 [管理] - 數(shù)據(jù)存儲,導出存儲相關(guān)信息,包括總?cè)萘俊⒖捎萌萘俊㈩愋偷取?
集群網(wǎng)絡(luò)信息收集: 登錄VMware vSphere Web Client,選擇主機后,點擊 [管理 / 網(wǎng)絡(luò)] 進入網(wǎng)絡(luò)選項卡,統(tǒng)計網(wǎng)絡(luò)信息,包括VLAN、IP地址段等,用于創(chuàng)建超融合物理出口 - 端口組。
統(tǒng)計好VXLAN信息后,用于創(chuàng)建超融合物理出口-端口組。
操作系統(tǒng)信息收集: 收集學校在用操作系統(tǒng)版本,用于確認SCMT agent兼容性。部分虛擬機使用的X64 Openeuler22.03 內(nèi)核 5.10、UOSv20 內(nèi)核 4.19.0 - 91.82.112.uelc20.x86 64不在SCMT有代理遷移插件兼容性列表里,需使用VMware納管遷移或者ISO遷移。
( 二 ) 遷移方案設(shè)計
1. 目標
根據(jù)信息收集的結(jié)果,制定科學合理、切實可行的遷移方案,確保業(yè)務系統(tǒng)能夠平穩(wěn)、高效地從VMware平臺遷移到新平臺。
充分考慮業(yè)務的復雜性和多樣性,通過合理的規(guī)劃和設(shè)計,降低遷移過程中的風險,保障業(yè)務的連續(xù)性和數(shù)據(jù)的安全性。
2. 重點關(guān)注
科學合理的遷移方案能夠提高遷移效率,減少業(yè)務停機時間,降低對學校教學、科研和管理工作的影響。
通過嚴謹?shù)姆桨冈O(shè)計,可以有效避免因遷移過程中的錯誤操作或不合理規(guī)劃導致的業(yè)務中斷和數(shù)據(jù)丟失,保障學校信息化系統(tǒng)的穩(wěn)定運行。
3. 嚴謹細致的方案設(shè)計過程
( 1 ) 原則遵循目標: 確保遷移工作按照既定的規(guī)則和順序進行,避免混亂和無序操作,降低遷移風險。
重點關(guān)注點: 遵循先易后難、先常規(guī)業(yè)務后核心業(yè)務的原則,可以在遷移過程中逐步積累經(jīng)驗,及時發(fā)現(xiàn)和解決問題,避免因核心業(yè)務遷移失敗導致的重大影響。例如,先遷移簡單的業(yè)務系統(tǒng)可以測試遷移流程和工具的有效性,為核心業(yè)務遷移提供參考和保障。
( 2 )方式確認目標: 根據(jù)不同業(yè)務系統(tǒng)的特點和需求,選擇最合適的遷移方式,確保遷移過程的高效和穩(wěn)定。
重點關(guān)注點: 不同的業(yè)務系統(tǒng)可能具有不同的硬件、軟件和網(wǎng)絡(luò)配置,選擇合適的遷移方式可以提高遷移成功率,減少數(shù)據(jù)丟失和業(yè)務中斷的風險。例如,對于對停機時間要求較高的業(yè)務系統(tǒng),可以選擇對業(yè)務影響較小的遷移方式,如SCMT熱備遷移模式,以保障業(yè)務的連續(xù)性。
( 3 )耗時預估目標: 準確預估虛擬機遷移所需的時間,合理安排遷移計劃,確保遷移工作按時完成。
重點關(guān)注點: 合理的時間規(guī)劃有助于協(xié)調(diào)學校各部門的工作,避免因遷移時間過長影響學校的正常教學、科研和管理工作。同時,準確的耗時預估也可以提前發(fā)現(xiàn)可能存在的問題,如資源不足或網(wǎng)絡(luò)帶寬限制等,及時采取措施加以解決。
( 4 )全面考慮(端口連通性和兼容性檢查)目標: 確保新平臺與VMware平臺之間的端口連通性和系統(tǒng)兼容性,保障遷移過程中數(shù)據(jù)的正常傳輸和系統(tǒng)的穩(wěn)定運行。
重點關(guān)注點: 端口連通性和兼容性是遷移成功的關(guān)鍵因素之一。通過提前檢查和解決這些問題,可以避免因網(wǎng)絡(luò)連接問題或系統(tǒng)不兼容導致的遷移失敗,提高遷移的成功率和效率。
與用戶分工界面:
( 三 ) 遷移中
1. 重點關(guān)注項
嚴格的測試和監(jiān)控可以提前發(fā)現(xiàn)系統(tǒng)的潛在問題和風險點,及時采取措施加以解決,避免在遷移完成后出現(xiàn)業(yè)務中斷和數(shù)據(jù)丟失等嚴重問題。
對核心應用和其他應用的成功遷移是整個遷移項目的關(guān)鍵環(huán)節(jié),直接關(guān)系到學校教學、科研和管理工作的正常進行。通過精心組織和實施遷移過程,可以保障業(yè)務系統(tǒng)在新平臺上的穩(wěn)定運行,為學校的信息化建設(shè)提供有力支持。
2. 全面保障的遷移過程
( 1 ) 嚴格測試性能測試 :評估平臺在各種故障情況下的性能表現(xiàn),確保系統(tǒng)在面臨硬件故障、網(wǎng)絡(luò)故障等異常情況時仍能正常運行。
重點關(guān)注點: 通過性能測試,可以提前發(fā)現(xiàn)系統(tǒng)的性能瓶頸和潛在風險點,及時優(yōu)化系統(tǒng)配置,提高系統(tǒng)的可靠性和穩(wěn)定性。例如,在單網(wǎng)口故障、單交換機故障等情況下的測試結(jié)果,可以為網(wǎng)絡(luò)架構(gòu)的優(yōu)化提供依據(jù),保障業(yè)務系統(tǒng)在復雜網(wǎng)絡(luò)環(huán)境下的正常運行。
性能測試結(jié)果:(NVMe SSD 全閃池+Turbo+RDMA集群性能)
( 2 ) 可靠性測試: 驗證系統(tǒng)在硬件組件故障(如磁盤拔盤、電源故障等)情況下的容錯能力和恢復能力,確保系統(tǒng)具有足夠的可靠性。
重點關(guān)注點: 可靠性測試可以保障系統(tǒng)在面對硬件故障時能夠快速恢復,減少業(yè)務中斷時間。
( 3 ) 核心應用遷移: 確保學校核心業(yè)務系統(tǒng)(如智慧校園 E - campus)能夠順利遷移到新平臺,保障核心業(yè)務的連續(xù)性和穩(wěn)定性。
重點關(guān)注點:
對于大型應用群,需根據(jù)應用特點區(qū)分為單體應用、集群類應用和數(shù)據(jù)庫類應用,梳理應用架構(gòu)圖,理清應用脈絡(luò)。
Memcached無法進行持久化,數(shù)據(jù)不能備份,只能用于緩存使用,且重啟后數(shù)據(jù)全部丟失,因此Memcached虛擬機遷移后,數(shù)據(jù)需要重新緩存,性能有一個爬坡階段。
數(shù)據(jù)庫類業(yè)務遷移完成后進行數(shù)據(jù)完整性驗證和業(yè)務可用性時,可以通過分布式防火墻添加ACL規(guī)則,僅允許測試終端訪問,驗證數(shù)據(jù)無誤、業(yè)務可用性后再全部開放,避免未充分驗證時有其他終端的新增數(shù)據(jù)寫入,導致無法回退。
( 4 ) 其他應用遷移: 將其他非核心業(yè)務應用系統(tǒng)(如 XGC - ihome k8s 容器云平臺)遷移到新平臺,實現(xiàn)學校信息化系統(tǒng)的全面遷移。
重點關(guān)注點: 其他應用系統(tǒng)雖然不是核心業(yè)務,但也是學校信息化建設(shè)的重要組成部分。其成功遷移可以保障學校整體信息化系統(tǒng)的完整性和一致性,提高學校信息化管理的效率和水平。
( 四 ) 遷移后
業(yè)務切換協(xié)調(diào)有序: 協(xié)調(diào)停機時間進行業(yè)務切換,源機斷開網(wǎng)絡(luò),目標機拉起,確保了業(yè)務的連續(xù)性和穩(wěn)定性。
業(yè)務驗證嚴格細致: 業(yè)務部門人員對業(yè)務應用的各項關(guān)鍵功能進行了可用性驗證,同時對數(shù)據(jù)遷移前后進行了交叉驗證,確保了業(yè)務的完整性和數(shù)據(jù)的準確性。
四、 保障業(yè)務平穩(wěn)運行
在業(yè)務遷移后,為保障用戶業(yè)務的持續(xù)穩(wěn)定運行,深信服采取了一系列重要動作,主要包括智能監(jiān)控與告警以及定期巡檢,具體如下:
( 一 ) 智能監(jiān)控與告警監(jiān)控機制
1. 構(gòu)建快速感知風險的監(jiān)控體系: 聯(lián)動云端智能大腦,對學校云平臺實現(xiàn)7*24小時不間斷的監(jiān)控和告警。這一機制能夠及時捕捉到平臺運行過程中的各種異常情況,為風險預測和預防性處置提供了堅實的數(shù)據(jù)支持。
2. 問題發(fā)現(xiàn)與處理內(nèi)存不足問題: 通過云端智能大腦的精準分析,及時發(fā)現(xiàn)了centos7-Ecampus-DBexchangeServer等核心數(shù)據(jù)庫虛擬機內(nèi)存不足以及MongoDB內(nèi)存不足的問題。
優(yōu)化措施:針對這些問題,迅速采取增加內(nèi)存的措施來優(yōu)化系統(tǒng)運行,有效解決了內(nèi)存不足對業(yè)務的潛在威脅,確保了虛擬機的穩(wěn)定運行,為業(yè)務的正常開展提供了有力保障。
3. 意義與價值: 智能監(jiān)控與告警系統(tǒng)的有效運行,能夠及時分析預測風險點,提前采取預防性處置措施,避免了風險的升級,從而保障了業(yè)務的穩(wěn)定運行。這不僅提高了系統(tǒng)的可靠性和穩(wěn)定性,還為用戶節(jié)省了因業(yè)務中斷而帶來的巨大損失,提升了用戶對平臺的信任度。
( 二 ) 定期巡檢
1. 主動服務準備: 提前了解歷史問題,覆蓋中基層并爭取與高層溝通匯報,了解不同層級關(guān)注點,為個性化服務奠定基礎(chǔ)。
2. 產(chǎn)品運行診斷: 傳遞服務理念,了解使用情況,采用工具與checklist點檢設(shè)備,處置問題與優(yōu)化項,保障業(yè)務最佳狀態(tài)。
3. 差距分析與建議: 解讀診斷結(jié)果,提供深化建議、培訓與匯報,強化用戶價值感知,助力解決問題提升業(yè)務。
4. 主動服務收尾: 及時實物反饋,處置遺留問題,確保用戶感知服務水平,提升滿意度。
5. 目的與意義: 檢查風險與差距,維持業(yè)務良好狀態(tài);識別短板與需求,獲認可提升滿意度;提供技術(shù)方案,利于業(yè)務發(fā)展承載。
五、 替換總結(jié)
某211高校的VMware遷移項目取得了顯著的成果,為學校的發(fā)展帶來了新的機遇和可能性。同時,也為其他高校的信息化建設(shè)提供了寶貴的經(jīng)驗和借鑒。
借助云平臺升級的契機,學校實現(xiàn)了業(yè)務的全面轉(zhuǎn)型與升級,有力地推動了教學、科研和管理工作的信息化進程。在此過程中,安全可靠的云平臺得以構(gòu)建,為學校的信息資產(chǎn)和師生的個人信息安全筑牢了防線,為學校的可持續(xù)發(fā)展奠定了堅實基礎(chǔ),也為教學改革和科研創(chuàng)新注入了新的動力。
具體價值體現(xiàn):
1. 價值業(yè)務平穩(wěn)遷移
學校業(yè)務順利完成了從VMware平臺到深信服超融合平臺的遷移,核心業(yè)務更是遷移至全閃資源池,這一舉措顯著提升了業(yè)務的性能。使得學校的各項業(yè)務能夠更加穩(wěn)定、高效地運行,為教學和科研工作提供了更強大、更可靠的支撐。
2. 網(wǎng)絡(luò)可視化
通過運用網(wǎng)絡(luò)可視化工具(aNI,Advanced Network Insight),學校各二級學院、科室的虛擬機訪問關(guān)系得以實現(xiàn)自動采集和梳理。這不僅提供了詳細的訪問關(guān)系拓撲圖和訪問詳情,還為優(yōu)化網(wǎng)絡(luò)策略配置提供了有力依據(jù),有助于及時發(fā)現(xiàn)業(yè)務訪問過程中的潛在風險,有效減少了風險端口的暴露,為網(wǎng)絡(luò)安全提供了更有效的保障。
3. 業(yè)務實現(xiàn)高可用
遷移至深信服超融合平臺后,憑借SCP云平臺集成的異地容災功能,無需安裝第三方軟件和插件,即可輕松獲取容災功能。核心業(yè)務基于aDR實現(xiàn)了同架構(gòu)數(shù)據(jù)中心級別容災,這意味著在面對突發(fā)情況時,業(yè)務能夠迅速恢復,為學校的業(yè)務連續(xù)性提供了堅實的保障,確保學校正常運營不受影響。
六、 用戶價值
本次VMware遷移項目得到了用戶的廣泛好評。與VMware平臺相比,深信服云平臺在功能、性能、可靠性和日常運維便捷性等方面都展現(xiàn)出了明顯的優(yōu)勢。其豐富的功能、高效的資源調(diào)度和全面的安全防護,特別是分布式防火墻的靈活應用,極大提升了工作效率。同時,深信服云平臺運行更穩(wěn)定、流暢,系統(tǒng)響應迅速,能快速恢復業(yè)務。遷移團隊提供的全面保障措施,包括數(shù)據(jù)備份、系統(tǒng)測試和故障排查,為學校提供了專業(yè)、高效和可靠的服務,也為學校的信息化建設(shè)注入了新活力。