為了推動(dòng) IT 基礎(chǔ)架構(gòu)國產(chǎn)化轉(zhuǎn)型,不少用戶都使用 SmartX 超融合和分布式存儲(chǔ)構(gòu)建信創(chuàng)云基礎(chǔ)設(shè)施。其中,信創(chuàng)硬件的選型與配置往往是用戶在規(guī)劃與部署環(huán)節(jié)關(guān)注的重點(diǎn):國產(chǎn) CPU/存儲(chǔ)怎么選?哪個(gè)系列/型號(hào)的性價(jià)比最高?如何基于信創(chuàng)硬件構(gòu)建高性能資源池?……
本文,我們將結(jié)合實(shí)踐經(jīng)驗(yàn)與測試數(shù)據(jù),為用戶提供基于 SmartX 產(chǎn)品的信創(chuàng)服務(wù)器、服務(wù)器部件(包括 CPU、SSD、HDD、RAID、網(wǎng)卡等)和交換機(jī)硬件的選型與配置建議。最后,我們將針對(duì)包括高性能資源池在內(nèi)的 4 種業(yè)務(wù)場景,為用戶提供信創(chuàng)硬件的整體配置方案參考。
如何基于 SmartX 超融合和分布式存儲(chǔ)構(gòu)建信創(chuàng)云平臺(tái)
SmartX 以超融合軟件 SMTX OS 為核心,提供自研、解耦、生產(chǎn)就緒的超融合信創(chuàng)云基礎(chǔ)設(shè)施產(chǎn)品組合。欲深入了解 SmartX 超融合信創(chuàng)云基礎(chǔ)設(shè)施解決方案,請閱讀:一文了解超融合信創(chuàng)云基礎(chǔ)設(shè)施。
SmartX 超融合信創(chuàng)云基礎(chǔ)設(shè)施
SmartX 超融合軟件 SMTX OS 可以直接安裝在搭載了海光、鯤鵬或者飛騰芯片平臺(tái)的信創(chuàng)通用服務(wù)器上,存儲(chǔ)網(wǎng)絡(luò)可以使用 10GbE、25GbE、100GbE 高速以太網(wǎng)網(wǎng)絡(luò)互聯(lián),同時(shí)支持 RDMA 協(xié)議。
在整體網(wǎng)絡(luò)方面,推薦使用典型的 SMTX OS 網(wǎng)絡(luò)架構(gòu)部署。該網(wǎng)絡(luò)架構(gòu)中從 OVS、物理網(wǎng)卡、交換機(jī)實(shí)現(xiàn)了管理網(wǎng)絡(luò)、存儲(chǔ)網(wǎng)絡(luò)和虛擬機(jī)業(yè)務(wù)網(wǎng)絡(luò)的完全隔離,運(yùn)維復(fù)雜度低,且安全合規(guī)。
同時(shí),針對(duì)部分用戶存算分離部署的需求,SmartX 也支持用戶基于自主研發(fā)的分布式塊存儲(chǔ)軟件 SMTX ZBS 構(gòu)建信創(chuàng)分布式存儲(chǔ)資源池。
基于 SMTX ZBS 構(gòu)建信創(chuàng)云平臺(tái)
SMTX ZBS 分布式塊存儲(chǔ)支持獨(dú)立部署,支持的服務(wù)器、存儲(chǔ)網(wǎng)絡(luò)和整體網(wǎng)絡(luò)架構(gòu)與基于 SMTX OS 的部署方案一致。區(qū)別在于,SMTX ZBS 不提供虛擬化服務(wù),只提供分布式存儲(chǔ)服務(wù),因此對(duì)于 CPU、內(nèi)存的需求可進(jìn)一步降低。目前,SMTX ZBS 支持 iSCSI、NVMe over RDMA(RoCE v2)和 NVMe over TCP 協(xié)議,支持 VMware vSphere/KVM 虛擬化平臺(tái)、OpenStack 云平臺(tái)、Kubernetes 容器云平臺(tái)、物理機(jī)等多種平臺(tái)。
SmartX 超融合與分布式存儲(chǔ)的的信創(chuàng)硬件選型建議
服務(wù)器整機(jī)選型
對(duì)于服務(wù)器整機(jī),得益于 SmartX 超融合與分布式存儲(chǔ)軟硬件解耦的優(yōu)勢,用戶可選擇 SmartX 與服務(wù)器廠商聯(lián)合認(rèn)證服務(wù)器,或者采用一體機(jī)進(jìn)行軟硬件一體化的形式進(jìn)行交付,同時(shí)也可以根據(jù)信創(chuàng)云平臺(tái)建設(shè)的需求,自行準(zhǔn)備滿足 SmartX 硬件兼容性列表(HCL)兼容要求的服務(wù)器以及硬件,SmartX 產(chǎn)品采用純軟件的方式進(jìn)行交付。
- 一體機(jī)形式交付:目前,SmartX 超融合與分布式存儲(chǔ)已與海光與鯤鵬主流國產(chǎn) CPU 的部分產(chǎn)品進(jìn)行了深度適配,用戶不用擔(dān)心適配、調(diào)優(yōu)等操作,開箱即可使用。
- 信創(chuàng)服務(wù)器自行選配:SmartX 超融合與分布式存儲(chǔ)適配浪潮、中科可控、紫光恒越、聯(lián)想、H3C、超聚變、Huawei TaiShan、神州鯤泰、華鯤振宇、寶德、五舟、百信恒山等國內(nèi)主流品牌中的信創(chuàng)通用服務(wù)器,涵蓋海光、鯤鵬以及飛騰芯片構(gòu)架硬件,支持用戶使用已有或自行采購的服務(wù)器靈活配置。用戶還可使用不同品牌的服務(wù)器搭建異構(gòu)超融合/分布式存儲(chǔ)集群,便于擴(kuò)容和持續(xù)推進(jìn)數(shù)字化轉(zhuǎn)型。欲深入了解服務(wù)器利舊方案與用戶實(shí)踐,請閱讀:4 個(gè)超融合利舊用戶實(shí)踐,揭秘如何以更低成本實(shí)現(xiàn)架構(gòu)轉(zhuǎn)型。
信創(chuàng)服務(wù)器整機(jī)適配概覽(部分)
服務(wù)器部件選型
信創(chuàng)服務(wù)器部件選型主要參考部件目前信創(chuàng)服務(wù)器的整體硬件性能較 Intel、AMD 等傳統(tǒng) x86 平臺(tái)存在一定的差異,各零部件品牌和型號(hào)眾多,因此用戶在服務(wù)器部件選型時(shí)(CPU、內(nèi)存、SSD、HDD、RAID 卡、網(wǎng)卡)可以參考如下建議*。
*注:對(duì)于部分部件,信創(chuàng)產(chǎn)品可滿足大多數(shù)使用場景,但在一些對(duì)性能與延時(shí)要求較高的信創(chuàng)場景,國外品牌產(chǎn)品仍為常見使用,且可通過信創(chuàng)驗(yàn)收,因此列出供讀者參考。
CPU 選型參考
使用 SMTX OS 構(gòu)建高性能集群時(shí),建議選擇海光 3 代 7390 或 7380 CPU,或鯤鵬 920 64 核 CPU 2 路標(biāo)準(zhǔn)服務(wù)器,用于承載 CPU 敏感型應(yīng)用,如數(shù)據(jù)庫、核心應(yīng)用、高性能前端、數(shù)據(jù)分析、高性能計(jì)算等。
這里海光和鯤鵬 CPU 最大的區(qū)別是,海光 CPU 具備完整的 x86 指令集,且支持開啟超線程,能夠分發(fā)的虛擬核更多;而鯤鵬 CPU 由于其自身不支持超線程,為了實(shí)現(xiàn)最佳實(shí)踐,建議使用 64 核。
使用 SMTX ZBS 構(gòu)建高性能集群時(shí),由于分布式塊存儲(chǔ)集群不對(duì)外提供計(jì)算虛擬化服務(wù),資源占用量更低,因此用戶可選擇海光三號(hào) 5380 / 5390 兩款主頻相對(duì)較高的 CPU 或鯤鵬 920 32/48 核 CPU 單路服務(wù)器,即可滿足高性能存儲(chǔ)的 CPU 需求,同時(shí)降低 CPU 硬件成本。
內(nèi)存選型參考
內(nèi)存的選型比較簡單,為了保證信創(chuàng)資源池場景下的整體性能,建議在規(guī)劃時(shí)對(duì)每個(gè)業(yè)務(wù)系統(tǒng)使用的內(nèi)存資源做適量增加(留出余額),同時(shí)建議用戶先確認(rèn)服務(wù)器內(nèi)存的當(dāng)前容量和最大擴(kuò)容量,這樣后續(xù)業(yè)務(wù)量增長,內(nèi)存也方便隨之?dāng)U展。
SSD 選型參考
- Boot 盤我們推薦使用 2 塊容量 ≧ 480GB 的企業(yè)級(jí) SSD 做硬件 RAID 1,以確保可靠性、使用壽命和啟動(dòng)速度。目前 SmartX 支持絕大多數(shù)市場上主流的 RAID 卡或 M.2 Raid 卡來對(duì) Boot 盤構(gòu)建硬件 RAID 1。
- 緩存盤/數(shù)據(jù)盤我們推薦使用不少于 4 塊的企業(yè)級(jí)讀寫混合型(DWPD ≧ 3)SATA / SAS / NVMe SSD 作為緩存盤,進(jìn)行分層部署,此時(shí)緩存盤與數(shù)據(jù)盤的配比比例應(yīng)在 10% 以上。如用于構(gòu)建高性能資源池,推薦使用 NVMe 全閃,并采用不分層的部署方式。
以上建議均適用于 SMTX OS 和 SMTX ZBS。
下圖表展示了部分 SmartX 兼容適配的主流品牌和主流型號(hào) SSD,標(biāo)綠的為推薦型號(hào)(讀寫混合型,壽命更長,PCIe 4.0 起步)。當(dāng)然,用戶也可以選擇讀取密集型 SSD,但此類 SSD 在長時(shí)間的高負(fù)載、大塊 I/O 場景下可能會(huì)出現(xiàn)增加延遲或者帶寬降低等影響集群整體性能情況,需要用戶結(jié)合實(shí)際情況考慮。
HDD 選型參考
目前,SMTX OS 和 SMTX ZBS 均支持主流品牌、主流規(guī)格的 512n / 512e 格式的 HDD(僅列舉市場中常見 HDD 尺寸規(guī)格以及容量節(jié)點(diǎn))。
HDD 的選擇主要集中在 2.5 英寸 SAS 機(jī)械盤和 3.5 英寸 SATA 機(jī)械盤上。從使用性能上來講,在緩存盤不擊穿的情況下,2.5 英寸 SAS 機(jī)械盤和 3.5 英寸 SATA 機(jī)械盤的使用效果沒有太大區(qū)別,業(yè)務(wù)系統(tǒng)也沒有明顯的感知。不過在生產(chǎn)環(huán)境中(尤其是混閃架構(gòu)),如果硬盤需要更換,硬盤上存放的持久化數(shù)據(jù)越多,重構(gòu)時(shí)間越長,這時(shí) 2.5 英寸 SAS 機(jī)械盤重構(gòu)速度就會(huì)比 3.5 英寸 SATA 機(jī)械盤要快。如果存儲(chǔ)資源使用量很大,需要使用 3.5 英寸盤,用戶也可以有很多種選擇,但結(jié)合可維護(hù)性與成本考慮,建議用戶使用 10TB 及以下容量的 3.5 英寸盤。
總結(jié)一下,根據(jù)最佳實(shí)踐經(jīng)驗(yàn),推薦集群服務(wù)器配置 2.5 英寸 SAS HDD,對(duì)硬件成本敏感或?qū)π阅懿幻舾械臉I(yè)務(wù)系統(tǒng)(如日志歸檔、鏡像歸檔等場景),可以考慮使用單盤 10TB 及以下容量的 SATA HDD。
存儲(chǔ)控制器選型參考
- Boot 盤推薦使用兩張 M.2 SSD 并通過 RAID 套件組硬件 RAID 1。若無法滿足上述最佳方案,則可通過使用獨(dú)占一塊支持硬件 RAID 1 的存儲(chǔ)控制器與兩張后置 SATA SSD 組成硬件 RAID 1 以保證 Boot 盤的高可用。
- SSD 緩存盤/全閃數(shù)據(jù)盤推薦獨(dú)占使用 1 塊或多塊支持 JBOD 模式的存儲(chǔ)控制器。選用存儲(chǔ)控制器時(shí)建議通道數(shù)大于等于磁盤數(shù),以獲得更好的整體性能。另外,使用 NVMe?高速閃存介質(zhì)做為緩存盤或全閃數(shù)據(jù)盤時(shí),通常會(huì)配置 NVMe CPU 直通卡(Switch / Retimer)以獲得更好的 NVMe 的支持性, NVMe SSD 無需額外的存儲(chǔ)控制器。
網(wǎng)卡選型參考
網(wǎng)卡適配概覽
- Intel
- i350
- 基于 82599 芯片 OEM 品牌?
- X500 系列 X520/X540/X550
- X700 系列 X722/XL710/X710
- E810
- Mellanox
- CX-3
- CX-4
- CX-5
- Solarflare
- X2、8000
- Broadcom/HP/QLogic
- 中興
- I-210/NS-212
- H3C
- 530F/560F/620F
- Huawei
- TM210
- TM280
- 中科可控/紫光恒越/寶德/聯(lián)想/天宮/百信恒山/五舟
- 以 OEM Intel/Mellanox 為主
高性能集群推薦
SMTX OS 和 SMTX ZBS 在網(wǎng)卡層面也適配了眾多市面主流品牌的主流型號(hào)網(wǎng)卡和網(wǎng)卡芯片,如 Intel、Mellanox、Solarflare、Broadcom、中興、H3C、Huawei 等。在構(gòu)建高性能資源池時(shí),推薦選用支持 SR-IOV、RDMA 的網(wǎng)卡,如果要啟用 RDMA 模式建議選用Mellanox CX-5 網(wǎng)卡。
- RDMA
- Mellanox CX-5 25GbE
- SR-IOV
- Intel X722
- Mellanox CX-4/5?
- Solarflare X2、8000
交換機(jī)選型
使用 SmartX 超融合和分布式存儲(chǔ),推薦使用典型網(wǎng)絡(luò)拓?fù)浼軜?gòu)進(jìn)行網(wǎng)絡(luò)規(guī)劃,存儲(chǔ)網(wǎng)絡(luò)、管理網(wǎng)絡(luò)、虛擬機(jī)業(yè)務(wù)網(wǎng)絡(luò)/存儲(chǔ)接入網(wǎng)絡(luò)推薦選擇支持 MLAG 高可用組網(wǎng)特性的數(shù)據(jù)中心級(jí)交換機(jī),以獲得更好的網(wǎng)絡(luò)質(zhì)量。
存儲(chǔ)網(wǎng)絡(luò)推薦使用 10GbE 及以上的以太網(wǎng)交換機(jī)。如使用 NVMe 作緩存盤,或使用 SATA 全閃磁盤,推薦使用 25GbE 以太網(wǎng)交換機(jī);如要構(gòu)建高性能集群,建議使用支持 RDMA L3 流控的交換機(jī)。
存儲(chǔ)接入網(wǎng)絡(luò)通常在分布式塊存儲(chǔ)分離部署場景中使用,建議采用 10GbE 及以上以太網(wǎng)交換機(jī)。如果接入端(虛擬化、物理服務(wù)器、OpenStack、Kubernetes 容器平臺(tái))希望使用RDMA 特性,推薦使用 25GbE 及更高速率且支持 RDMA L3 流控的以太網(wǎng)交換機(jī)。
管理網(wǎng)絡(luò)使用千兆網(wǎng)絡(luò)即可滿足網(wǎng)絡(luò)要求,如要獲得更好的網(wǎng)絡(luò)體驗(yàn),管理網(wǎng)絡(luò)也可以使用 10GbE 或更高速的以太網(wǎng)交換機(jī)。
虛擬機(jī)業(yè)務(wù)網(wǎng)絡(luò)對(duì)交換機(jī)沒有具體的限制和要求,通常根據(jù)業(yè)務(wù)系統(tǒng)負(fù)載進(jìn)行選擇。如果現(xiàn)有千兆網(wǎng)絡(luò)能滿足業(yè)務(wù)系統(tǒng)需求,使用千兆網(wǎng)絡(luò)也是可以的,如要獲得更好的網(wǎng)絡(luò)服務(wù)質(zhì)量,推薦使用 10GbE 及以上以太網(wǎng)交接機(jī)。
另外,我們?yōu)橛脩籼峁┮唤M信創(chuàng)交換機(jī) RDMA 打流測試數(shù)據(jù)作為參考。目前 RDMA 在以太網(wǎng)網(wǎng)絡(luò)上的主流傳輸方式是 RoCEv2,該協(xié)議是基于無連接服務(wù)的 UDP 協(xié)議,相比面向連接服務(wù)的 TCP 協(xié)議,UDP 協(xié)議傳輸速度更快、CPU 資源占用更少,但傳輸質(zhì)量是不可靠的。RDMA 接收方網(wǎng)卡發(fā)現(xiàn)丟包時(shí),會(huì)丟棄后續(xù)接收到的數(shù)據(jù)包,發(fā)送方需要重發(fā)之后的所有數(shù)據(jù)包,這會(huì)導(dǎo)致性能大幅下降。所以要想 RDMA 發(fā)揮出其性能,需要為其搭建一套不丟包的無損網(wǎng)絡(luò)環(huán)境。
通俗的說,如果要構(gòu)建 RDMA 無損網(wǎng)絡(luò),就需要流量控制和擁塞管理等流控機(jī)制,以確保RDMA 網(wǎng)絡(luò)的服務(wù)質(zhì)量。如圖中 RDMA 打流測試為例,同一紅框內(nèi)左右兩端網(wǎng)絡(luò)流量數(shù)據(jù)誤差越小,表示 RDMA 網(wǎng)絡(luò)質(zhì)量越好。
RDMA 交換機(jī)打流測試數(shù)據(jù)
(注:在國產(chǎn)交換機(jī) RDMA 打流測試過程中,使用的是同一套 SmartX 超融合集群。)
從以上數(shù)據(jù)可以看出,華為、H3C 的信創(chuàng)交換機(jī)對(duì) RDMA 場景的支持能力較強(qiáng),完全能夠滿足構(gòu)建高性能資源池的要求。
典型應(yīng)用場景配置實(shí)踐
場景一:要求“高性能、低延時(shí)”的重要業(yè)務(wù)系統(tǒng)
對(duì)于各種具有高性能、低延時(shí)需求的重要業(yè)務(wù)系統(tǒng),如交易類業(yè)務(wù)系統(tǒng)、中間業(yè)務(wù)系統(tǒng)、數(shù)據(jù)庫等,建議用戶構(gòu)建 NVMe 全閃資源池。整套架構(gòu)的信創(chuàng)硬件配置,我們結(jié)合上述分析整理了以下方案,供用戶參考。
場景二:性能敏感型業(yè)務(wù)系統(tǒng)
對(duì)于對(duì)性能相對(duì)敏感的業(yè)務(wù)系統(tǒng),如重要業(yè)務(wù)系統(tǒng)的開發(fā)測試場景、數(shù)據(jù)分析業(yè)務(wù)、生產(chǎn)等,建議用戶構(gòu)建 NVMe + SATA SSD 分層全閃高性能資源池。整套架構(gòu)的信創(chuàng)硬件配置可參考以下方案。
場景三:一般生產(chǎn)業(yè)務(wù)系統(tǒng)
對(duì)于一般生產(chǎn)業(yè)務(wù)系統(tǒng)、開發(fā)測試環(huán)境、一般業(yè)務(wù)系統(tǒng)容災(zāi)/備份等場景,建議用戶構(gòu)建 SATA SSD + SAS HDD 混閃分層存儲(chǔ)資源池。整套架構(gòu)的信創(chuàng)硬件配置可參考以下方案。
場景四:一般業(yè)務(wù)系統(tǒng)
對(duì)于邊緣業(yè)務(wù)系統(tǒng)、管理類業(yè)務(wù)系統(tǒng)、一般開發(fā)測試環(huán)境、歸檔存儲(chǔ)類等,建議用戶構(gòu)建 SATA SSD + SATA HDD 混閃存儲(chǔ)資源池。整套架構(gòu)的信創(chuàng)硬件配置可參考以下方案。