深信服云計(jì)算BU架構(gòu)師,擁有近10年云計(jì)算領(lǐng)域,核心底層技術(shù)研發(fā)工作。熱愛(ài)開(kāi)源社區(qū),OpenStack,SDN,PAAS專(zhuān)家,挖掘發(fā)表多項(xiàng)核心專(zhuān)利。作為云計(jì)算架構(gòu)師,主導(dǎo)超融合,私有云,混合云等架構(gòu)產(chǎn)品化落地,參與電信,金融等行業(yè)云化數(shù)據(jù)中心解決方案,SDN/NFV及應(yīng)用架構(gòu)轉(zhuǎn)型專(zhuān)項(xiàng)工作。
分享大綱:
• 傳統(tǒng)企業(yè)IT架構(gòu)演進(jìn)及核心訴求
• 深信服云體系架構(gòu)介紹
• 超融合aCloud+aCMP架構(gòu)設(shè)計(jì)
• 數(shù)據(jù)中心可靠性能力建設(shè)
• 數(shù)據(jù)中心安全能力建設(shè)
結(jié)合過(guò)去數(shù)字化轉(zhuǎn)型實(shí)踐,介紹企業(yè)IT架構(gòu)演進(jìn)思路和核心訴求,通過(guò)深信服超融合架構(gòu)和云管一體化架構(gòu)滿足廣泛應(yīng)用,打造安全可靠數(shù)據(jù)中心!
一、傳統(tǒng)企業(yè)IT架構(gòu)演進(jìn)及核心訴求
目前而言,越來(lái)越多的傳統(tǒng)業(yè)務(wù)客戶選擇把核心的應(yīng)用或數(shù)據(jù)上云。超融合憑借其把計(jì)算網(wǎng)絡(luò)存儲(chǔ)安全融為一體的架構(gòu),很靈活滿足了整個(gè)傳統(tǒng)企業(yè)的IT應(yīng)用。
隨著核心的應(yīng)用上云之后,可能會(huì)涉及到另外一個(gè)問(wèn)題,即整個(gè)數(shù)據(jù)可靠性的保障和容災(zāi)中心的建立,包括本地容災(zāi),異地容災(zāi)兩地三中心的架構(gòu)體系的建設(shè),整個(gè)體系完全是為了滿足傳統(tǒng)企業(yè)虛擬化云化之后的過(guò)程。
但另一方面某些創(chuàng)新型的應(yīng)用,比如AI大數(shù)據(jù),包括在整個(gè)公有云服務(wù)體系上,一些模型場(chǎng)景的具象化服務(wù)能力輸出之后,部分客戶對(duì)公有云的能力開(kāi)始有一些訴求,整個(gè)業(yè)務(wù)就必須要從私有的數(shù)據(jù)中心,或者單一的云環(huán)境要向多元業(yè)務(wù),或者說(shuō)像混合云這方面去傾斜。
有些客戶可能對(duì)公有云有特殊的要求,比如專(zhuān)屬云,或者托管服務(wù)。整個(gè)基礎(chǔ)設(shè)施這一層的構(gòu)成,從深信服過(guò)去實(shí)施的大量項(xiàng)目中,得到一個(gè)很大的實(shí)踐訴求,就是一定是要求穩(wěn)定安全可靠和高性能的基礎(chǔ)設(shè)施。
基于整個(gè)底層的架構(gòu)之上,還會(huì)進(jìn)一步引申出來(lái)一個(gè)對(duì)底層多集群多業(yè)務(wù)多租戶的一個(gè)管理訴求。云管理平臺(tái)(CMP)的主要職責(zé)就是體現(xiàn)多租戶業(yè)務(wù),包括計(jì)量計(jì)費(fèi)、自服務(wù)體系、以及服務(wù)目錄等一些建設(shè)。
深信服把所有的訴求做了一個(gè)中心化的具象,抽象開(kāi)來(lái)說(shuō),第一個(gè)基礎(chǔ)的服務(wù)模塊叫資源池,是統(tǒng)一管理底層的虛擬化資源和多集群等,然后體現(xiàn)多租戶能力,設(shè)置配額,發(fā)放資源等。
第二個(gè)是監(jiān)控中心,即可以對(duì)業(yè)務(wù)進(jìn)行端到端的檢測(cè)和告警,收集相關(guān)日志,包括數(shù)據(jù)探測(cè)、性能探測(cè)等。另外一個(gè)是可靠性中心,即整個(gè)數(shù)據(jù)中心的可靠性的建設(shè)。做兩方面去拆解,一個(gè)是在整個(gè)可視化上做了全面可視化的管理。第二個(gè)就是依賴(lài)底層虛擬化的技術(shù),能夠?qū)崿F(xiàn)備份,容災(zāi)等能力。
另外一個(gè)就是多云,整個(gè)管理功能就是要給公有云和私有云提供一致性的操作體驗(yàn)。在整個(gè)資源池入口,發(fā)放一個(gè)虛機(jī),它的資源池是可以選擇私有云,也可以選擇公有云進(jìn)行發(fā)放。實(shí)際上對(duì)于傳統(tǒng)的制造業(yè)來(lái)講,會(huì)存在特別多的分支機(jī)構(gòu),而且很多是部署在多個(gè)地方,我們的超融合集群可以部署不同的地方,然后通過(guò)CMP平臺(tái)統(tǒng)一管理起來(lái)。
還有一個(gè)能力中心是安全中心,以往整個(gè)傳統(tǒng)IT建設(shè)是有安全邊界的,并且借助一些具體的安全廠商的能力去做安全的區(qū)域防守或區(qū)域的這種保護(hù)。隨著業(yè)務(wù)云化之后,上了虛機(jī)之后,實(shí)際上邊界保護(hù)變得越來(lái)越模糊了,而且虛擬化的安全的防護(hù)會(huì)讓客戶會(huì)變得更加困難。
整個(gè)安全中心,借助安全產(chǎn)品和優(yōu)勢(shì),集成虛擬化的能力,從虛擬化底層到整個(gè)安全資源池,包括整個(gè)安全服務(wù)體系的建設(shè),為客戶的整個(gè)安全等保業(yè)務(wù)打造了一個(gè)非常安全的體系。
基于安全中心之上,還有兩大中心,一個(gè)是應(yīng)用中心,隨著現(xiàn)在越來(lái)越多的客戶對(duì)云原生應(yīng)用的場(chǎng)景訴求,包括容器、服務(wù)目錄等,用戶通過(guò)應(yīng)用中心的視角,把企業(yè)固有的一些IT應(yīng)用進(jìn)行模板化和編排。在整個(gè)應(yīng)用中心里,可以提供各種各樣的服務(wù)目錄,包括大數(shù)據(jù)服務(wù),數(shù)據(jù)庫(kù)RDS服務(wù)的一些應(yīng)用,這是應(yīng)用中心的構(gòu)成。
最后一個(gè)是運(yùn)營(yíng)中心,就是把整個(gè)云體系的解決方案給到更多的企業(yè)和客戶,實(shí)際上這個(gè)階段會(huì)碰到一個(gè)問(wèn)題,就是如何把云數(shù)據(jù)中心的能力往垂直行業(yè),或者說(shuō)往自己的渠道商輸送。這需要一個(gè)運(yùn)營(yíng)體系去支撐,包括整個(gè)服務(wù)商的管理計(jì)量計(jì)費(fèi),VDC虛擬數(shù)據(jù)中心和運(yùn)維體系的構(gòu)成。
整個(gè)CMP的訴求實(shí)際上就是需要完成對(duì)廣泛業(yè)務(wù)形成一個(gè)支撐,并且能夠適應(yīng)整體企業(yè)傳統(tǒng)轉(zhuǎn)型過(guò)程中業(yè)務(wù)架構(gòu)的變化,從而能更好的支持上層傳統(tǒng)數(shù)據(jù)庫(kù)和新型應(yīng)用。
二、深信服云體系架構(gòu)介紹
實(shí)際上產(chǎn)品體系可以分為幾大模塊,最下面是資源池的訴求,通過(guò)自己的超融合架構(gòu)acloud去交付整個(gè)虛擬化資源池的能力,然后基于acloud之上,形成AC MP的云管平臺(tái)。
基于這個(gè)平臺(tái)之上,為更大的客戶和集團(tuán)輸出MSP運(yùn)營(yíng)商管理平臺(tái),它可以把云的能力變成行業(yè)的解決方案或垂直的解決方案,并且把這種能力很好的為其他客戶或同行去進(jìn)行輸出。
整個(gè)運(yùn)維平臺(tái)和服務(wù)體系的打造,結(jié)合了公有云運(yùn)維。在幫助企業(yè)客戶運(yùn)維的過(guò)程中,逐步形成了這樣的一個(gè)運(yùn)維平臺(tái),可以交付給客戶。通過(guò)運(yùn)維平臺(tái)更好地實(shí)現(xiàn)對(duì)數(shù)據(jù)中心的管理,也可以通過(guò)運(yùn)維平臺(tái)幫助客戶代運(yùn)維和管理。
整個(gè)云的業(yè)務(wù)體系介紹完成之后,接下來(lái)我會(huì)分解一下支撐整個(gè)云業(yè)務(wù)體系的超融合架構(gòu)和acmp的管理平臺(tái)。過(guò)去在大型項(xiàng)目的實(shí)施過(guò)程中,都會(huì)有這樣一個(gè)感受,就是必須要有一個(gè)統(tǒng)一標(biāo)準(zhǔn)的公共框架來(lái)支撐整個(gè)產(chǎn)品的引進(jìn)過(guò)程。
隨著并發(fā)項(xiàng)目的增多,整個(gè)開(kāi)發(fā)團(tuán)隊(duì)能力的邊界其實(shí)是參差不齊的,大家對(duì)規(guī)范的遵守,以及一些公共組件的使用,實(shí)際上也是不標(biāo)準(zhǔn)的。這樣會(huì)導(dǎo)致整個(gè)產(chǎn)品體系和平臺(tái)體系慢慢的進(jìn)行腐化,腐化到一定過(guò)程就會(huì)導(dǎo)致必然要采取措施對(duì)這個(gè)架構(gòu)要進(jìn)行重構(gòu)。
在重構(gòu)的過(guò)程中,會(huì)整合客戶的需求。實(shí)際上自己的開(kāi)發(fā)速度也很慢,會(huì)拖累整個(gè)產(chǎn)品的迭代速度。舉個(gè)列子,阿里云把電商的一些模型也進(jìn)行了服務(wù)化的框架輸出,包括在阿里云上類(lèi)似EDAS的服務(wù),把電商的基礎(chǔ)服務(wù)框架進(jìn)行產(chǎn)品化輸出之后,可以很好地支撐同行企業(yè)的快速創(chuàng)新和產(chǎn)品開(kāi)發(fā)。
想進(jìn)行電商業(yè)務(wù)嘗試的企業(yè),可以很快把底層的基礎(chǔ)架構(gòu)構(gòu)建起來(lái)。深信服也有這樣的一個(gè)基礎(chǔ)框架叫phoenix框架。實(shí)際它是由這幾部分組成,底層框架,中間件和業(yè)務(wù)應(yīng)用app,最底層都是要依賴(lài)一個(gè)體系的服務(wù)框架。
在開(kāi)發(fā)隊(duì)伍里面,采用多進(jìn)程或協(xié)程的模式,或者是微服務(wù)這樣一種形態(tài),都是屬于底層服務(wù)框架。服務(wù)框架實(shí)際上是作為底層的一個(gè)插座?;诜?wù)框架之上,可能還會(huì)依賴(lài)很多中間件,包括擴(kuò)展模塊,比如說(shuō)整個(gè)日志的處理。
配置的管理操作,還有整個(gè)國(guó)際化翻譯,包括整體測(cè)試框架的遵守,實(shí)際上是整個(gè)中間件的組成。這些中間件經(jīng)過(guò)一定的封裝適配之后提供標(biāo)準(zhǔn)的公共接口,開(kāi)發(fā)人員只需要遵守公共接口,后臺(tái)整個(gè)中間件的能力建設(shè),由整個(gè)后臺(tái)的底層框架去保障的。
基于上面來(lái)做業(yè)務(wù)需求的轉(zhuǎn)化,當(dāng)開(kāi)發(fā)人員或產(chǎn)品經(jīng)理接到新的需求時(shí),實(shí)際上有開(kāi)發(fā)人員只是把業(yè)務(wù)需求轉(zhuǎn)化成具體的一個(gè)業(yè)務(wù)應(yīng)用,它并不關(guān)心底層實(shí)際應(yīng)用是多進(jìn)程還是多線程。
在整個(gè)體系架構(gòu)向前引進(jìn)的過(guò)程中,底層是用微服務(wù)架構(gòu),還是用容器去部署,作為APP來(lái)講實(shí)際上是解耦的。也就相當(dāng)于把開(kāi)發(fā)人員的角色跟整個(gè)底層框架的角色進(jìn)行區(qū)分,這樣的話整個(gè)業(yè)務(wù)在開(kāi)發(fā)和部署速度上都會(huì)加快起來(lái)。
三、超融合aCloud+aCMP架構(gòu)設(shè)計(jì)
整個(gè)Phoenix基礎(chǔ)框架的底層,實(shí)際上把通用服務(wù)能力,比如說(shuō)外部響應(yīng)的這種服務(wù)能力,一些周期任務(wù),這種RPC還有日志公共的進(jìn)行一層封裝,基于這個(gè)框架上進(jìn)行上層APP的開(kāi)發(fā),拿到phoenix基礎(chǔ)框架的開(kāi)發(fā)人員。
第一個(gè)命令可以很快創(chuàng)建一個(gè)項(xiàng)目,第二個(gè)是創(chuàng)建項(xiàng)目之后對(duì)整個(gè)服務(wù)進(jìn)行開(kāi)發(fā)。如果把這個(gè)框架拿去要做一個(gè)用戶管理系統(tǒng),可能有一個(gè)APP是用戶賬號(hào),一個(gè)是認(rèn)證APP,這些APP之間的內(nèi)部可以通過(guò)RPC調(diào)用,也可以通過(guò)http調(diào)用。
對(duì)于超融合架構(gòu)來(lái)講,基于通用X86服務(wù)器上進(jìn)行去中心化設(shè)計(jì),整個(gè)主控節(jié)點(diǎn)是通過(guò)集群的通信去自動(dòng)選舉出來(lái)的,當(dāng)發(fā)生網(wǎng)絡(luò)或者服務(wù)器宕機(jī)的故障后,對(duì)整個(gè)主控節(jié)點(diǎn)會(huì)進(jìn)行重新選取,這就是去中心化設(shè)計(jì)的架構(gòu)原則。
而后臺(tái)實(shí)現(xiàn)這種技術(shù)實(shí)際上用到了一個(gè)集群文件系統(tǒng),它分布于每一個(gè)X86的節(jié)點(diǎn)上,對(duì)所有虛擬化資源的配置信息進(jìn)行存放。無(wú)論哪個(gè)節(jié)點(diǎn)掛了,另外的節(jié)點(diǎn)會(huì)對(duì)這些配置數(shù)據(jù)的一些恢復(fù),這是集群文件系統(tǒng)的一個(gè)技術(shù)采用,整個(gè)超融合架構(gòu),可以把計(jì)算網(wǎng)絡(luò)存儲(chǔ)安全融合于一體,然后支持提供給客戶這樣一個(gè)特別簡(jiǎn)單容易部署的架構(gòu)。同時(shí)也可以進(jìn)行計(jì)算和存儲(chǔ)分離和混合部署。
整個(gè)超融合架構(gòu)的基礎(chǔ),實(shí)際上就是最下面的計(jì)算存儲(chǔ)網(wǎng)絡(luò)的虛擬化,持續(xù)的會(huì)在整個(gè)底層的虛擬化平臺(tái)上打造,為了滿足客戶穩(wěn)定可靠安全高性能的訴求,會(huì)持續(xù)的打磨整個(gè)底層平臺(tái)。
從存儲(chǔ)網(wǎng)絡(luò)計(jì)算上,可能會(huì)去對(duì)比一些友商,或者一些性能去進(jìn)行測(cè)試,在更多的用戶場(chǎng)景上,更好地保證整個(gè)應(yīng)用的運(yùn)行。aCMP架構(gòu)對(duì)于云管平臺(tái)來(lái)講其實(shí)并不陌生,都是開(kāi)源的。
我們對(duì)云管平臺(tái)進(jìn)行了重新的設(shè)計(jì),其原因有以下幾點(diǎn):
第一點(diǎn), 實(shí)際上,整個(gè)openstack隨著社區(qū)化的運(yùn)作和發(fā)展,其實(shí)整個(gè)體系已經(jīng)非常龐大了,它的業(yè)務(wù)模塊以及整個(gè)交互,整個(gè)業(yè)務(wù)流程變得相當(dāng)?shù)膹?fù)雜。
第二點(diǎn), 社區(qū)化的版本向前引進(jìn)的過(guò)程跟產(chǎn)品化的整個(gè)配套過(guò)程是很難融合在一起的。作為產(chǎn)品來(lái)講,我們必須要響應(yīng)客戶的定制化的需求,從而滿足客戶脫離整個(gè)社區(qū)以外的其他功能。
雖然整個(gè)架構(gòu)的底層組件,比如說(shuō)計(jì)算存儲(chǔ)網(wǎng)絡(luò)組件,實(shí)際上底層的代碼風(fēng)格,包括組織都千差萬(wàn)別。這樣就會(huì)給整個(gè)開(kāi)發(fā)團(tuán)隊(duì)帶來(lái)許多問(wèn)題,如何建立這樣的過(guò)程以及維護(hù)。
所以基于此,我們對(duì)整個(gè)aCMP架構(gòu)設(shè)計(jì)做了一些變動(dòng)。對(duì)比較成熟的一些公共組件,比如說(shuō)用戶認(rèn)證管理體系,數(shù)據(jù)采集等,會(huì)基于框架做相關(guān)擴(kuò)展開(kāi)發(fā)。
這是整個(gè)CMP體系,上層是一個(gè)適配層,適配層主要是去區(qū)分用戶界面和后端模塊化設(shè)計(jì)的適配。
后端的業(yè)務(wù)模塊化劃分之后,需要在上層進(jìn)行數(shù)據(jù)的聚合,包括很好的用戶體驗(yàn),必然就會(huì)把多個(gè)模塊的數(shù)據(jù)需要組裝在一起。比如在虛擬機(jī)列表里面,它可能同時(shí)需要計(jì)算模塊的虛擬機(jī)信息,同時(shí)又需要告警模塊或監(jiān)控模塊。
那這些數(shù)據(jù)需要單個(gè)模塊去調(diào)試接口,從產(chǎn)生這樣的一些數(shù)據(jù),最終提供給客戶,需要很久的響應(yīng)時(shí)間。由此可見(jiàn),這種體驗(yàn)是非常差勁的。在此我們用了一個(gè)適配層,但是整個(gè)aCMP設(shè)計(jì)架構(gòu)的亮點(diǎn),就是采用了portal-api和數(shù)據(jù)查找?guī)靗ibselect打造的。
為了更好地滿足用戶體驗(yàn),包括整個(gè)界面的響應(yīng)請(qǐng)求。我們用了一個(gè)緩存層,實(shí)際上是快速地把后臺(tái)各個(gè)模塊的數(shù)據(jù)進(jìn)行一個(gè)聚合,融合之后能夠呈現(xiàn)在這個(gè)界面上,使其用戶訪問(wèn)數(shù)據(jù)的時(shí)候,不需要按照傳統(tǒng)已有的模塊分別查詢數(shù)據(jù)。
但是引入緩存層之后,會(huì)面臨一個(gè)問(wèn)題。對(duì)于整個(gè)實(shí)時(shí)數(shù)據(jù)的請(qǐng)求,比如說(shuō)我在上層創(chuàng)了一個(gè)虛機(jī)之后,如何能夠快速地把下面創(chuàng)建的虛機(jī)信息刷到訪談層里面,其實(shí)這里面涉及了一個(gè)reflesh機(jī)制,是對(duì)它的整個(gè)用戶請(qǐng)求的讀與寫(xiě)進(jìn)行了分離。
在寫(xiě)請(qǐng)求完成之后,會(huì)自動(dòng)帶入已同步的數(shù)據(jù)刷新到緩存,這是一個(gè)數(shù)據(jù)同步和一致性設(shè)計(jì)。
整個(gè)CMP對(duì)于多云的或者第三方云的托管,實(shí)際上都有一個(gè)最大的困難,就是公有云的各個(gè)廠商,它的整個(gè)接口形式,包括數(shù)據(jù)模型千差萬(wàn)別。在混合云管理平臺(tái)里,我們用了多云模板,并將其能力進(jìn)行抽象。最后統(tǒng)一把整個(gè)云能力拉管起來(lái),提供這種一致性的操作。
四 、數(shù)據(jù)中心可靠性能力建設(shè)
可靠性中心,實(shí)際上分為兩個(gè)版塊。第一塊就是可視,能夠從整個(gè)硬件資源,包括平臺(tái)的服務(wù),CPU,或者網(wǎng)口和數(shù)據(jù)的容災(zāi)備份,進(jìn)行統(tǒng)一的全局可視化服務(wù)。
這樣針對(duì)傳統(tǒng)企業(yè)來(lái)說(shuō),或者IT運(yùn)維能力相對(duì)比較差的客戶。在整個(gè)可視化的過(guò)程當(dāng)中,可以快速地發(fā)現(xiàn)整個(gè)平臺(tái)存在的問(wèn)題。這個(gè)能力就是可視化的一個(gè)能力輸出。
第二塊就是對(duì)于整個(gè)數(shù)據(jù)的容災(zāi),傳統(tǒng)的數(shù)據(jù)庫(kù)首先建立容災(zāi)和備份的機(jī)制,然后是生產(chǎn)的節(jié)點(diǎn)和恢復(fù)節(jié)點(diǎn),它們之間可以通過(guò)底層虛擬化的數(shù)據(jù)進(jìn)行實(shí)時(shí)的備份同步。當(dāng)虛機(jī)數(shù)據(jù)受損時(shí),可以從本地的備份進(jìn)行恢復(fù),也可以在恢復(fù)站點(diǎn)里面,通過(guò)恢復(fù)中心同步回來(lái)。
對(duì)于不同保護(hù)組的應(yīng)用,進(jìn)行這種保護(hù)策略,來(lái)設(shè)置它的RPO和RTO。然后對(duì)本地的備份和實(shí)時(shí)的云端進(jìn)行容災(zāi),然后看到整個(gè)業(yè)務(wù)保護(hù)組策略,一個(gè)全局關(guān)聯(lián)關(guān)系。
五、數(shù)據(jù)中心安全能力建設(shè)
整個(gè)可靠性的能力打造之后,實(shí)際上在面向更多的客戶輸出,包括目前來(lái)講對(duì)于整個(gè)云平臺(tái)的安全治理的產(chǎn)出規(guī)范之后,借助于安全廠商的這些優(yōu)勢(shì),在整個(gè)云平臺(tái)上做了很多關(guān)于安全體系架構(gòu)設(shè)計(jì)的內(nèi)容。
作為在CMP上的獨(dú)立安全中心,能夠?qū)崿F(xiàn)整個(gè)云平臺(tái)的安全策略體系。在平臺(tái)層提供了一個(gè)虛擬化安全,在網(wǎng)絡(luò)整塊虛擬化安全上一系列安全防護(hù),使得在整個(gè)虛擬化平臺(tái)層能夠幫助客戶減少很多的安全配置。
安全的運(yùn)維會(huì)把整個(gè)安全體系和安全能力,作為一個(gè)安全資源池來(lái)統(tǒng)一編排?;蛘咄ㄟ^(guò)安全組件化,在整個(gè)超融合架構(gòu)里面,幫助客戶能夠在安全能力建設(shè)上達(dá)到安全擔(dān)保和行業(yè)行規(guī)的標(biāo)準(zhǔn)。
安全服務(wù)體系可以通過(guò)安全服務(wù)化的能力,幫助客戶在云平臺(tái)建設(shè)過(guò)程中達(dá)到安全的指標(biāo),包括整個(gè)安全事故或安全保障,基于所有底層的虛擬化安全和安全配置,包括整個(gè)安全資源池。
在上面有一個(gè)全局的SIP(態(tài)勢(shì)感知平臺(tái)),它可以實(shí)現(xiàn)對(duì)于整個(gè)平臺(tái)的統(tǒng)一監(jiān)測(cè),包括數(shù)據(jù)分析,借助大數(shù)據(jù)和AI的后臺(tái),進(jìn)行一些訓(xùn)練和學(xué)習(xí),可以實(shí)時(shí)地把整個(gè)病毒庫(kù)和所有的安全體系,能夠在整個(gè)態(tài)勢(shì)感知平臺(tái)里進(jìn)行一個(gè)展示。最終達(dá)到一個(gè)可視可控的平臺(tái),從而靈動(dòng)地響應(yīng)整個(gè)安全事件。