作者:衛(wèi)崢
本文主要從早期的負載均衡開始談起,進而講解了阿里云高性能負載均衡,著重分析了LVS和Tengine,以及如何做到高可用。
負載均衡
負載均衡是云計算的基礎組件,是網(wǎng)絡流量的入口,其重要性不言而喻。
什么是負載均衡呢?用戶輸入的流量通過負載均衡器按照某種負載均衡算法把流量均勻地分散到后端的多個服務器上,接收到請求的服務器可以獨立的響應請求,達到負載分擔的目的。從應用場景上來說,常見的負載均衡模型有全局負載均衡和集群內(nèi)負載均衡,從產(chǎn)品形態(tài)角度來說,又可以分為硬件負載均衡和軟件負載均衡。
全局負載均衡一般通過DNS實現(xiàn),通過將一個域名解析到不同VIP,來實現(xiàn)不同的region調(diào)度能力;硬件負載均衡器常見的有F5、A10、Array,它們的優(yōu)缺點都比較明顯,優(yōu)點是功能強大,有專門的售后服務團隊,性能比較好,缺點是缺少定制的靈活性,維護成本較高;現(xiàn)在的互聯(lián)網(wǎng)更多的思路是通過軟件負載均衡來實現(xiàn),這樣可以滿足各種定制化需求,常見的軟件負載均衡有LVS、Nginx、Haproxy。
我們的高性能負載均衡使用LVS和Tengine,在一個region區(qū)分不同的機房,每個機房都有LVS集群和Tengine集群,對于用戶配置的四層監(jiān)聽,LVS后面會直接掛載用戶ECS,七層用戶監(jiān)聽ECS則掛載在Tengine上,四層監(jiān)聽的流量直接由LVS轉發(fā)到ECS,而7層監(jiān)聽的流量會經(jīng)過LVS到Tenigine再到用戶ECS。每一個region里都會有多個可用區(qū),達到主備容災目的,每一個集群里都有多臺設備,第一是為了提升性能,第二也是基于容災考慮。
上圖為高性能負載均衡控制管理概要圖,SLB產(chǎn)品也有SDN概念,轉發(fā)和控制是分離的,用戶所有配置通過控制臺先到控制器,通過集中控制器轉換將用戶配置推送到不同設備上,每臺設備上都有Agent接收控制器下發(fā)的需求,通過本地轉換成LVS和Tengine能夠識別的配置,這個過程支持熱配置,不影響用戶轉發(fā),不需要reload才能使新配置生效。
LVS
1、LVS支持的三種模式
早期LVS支持三種模式,DR模式、TUN模式和NAT模式。
DR模式經(jīng)過LVS之后,LVS會將MAC地址更改、封裝MAC頭,內(nèi)層IP報文不動,報文經(jīng)過LVS負載均衡查找到RS之后,將源MAC頭改成自己的,目的MAC改成RS地址,MAC尋址是在二層網(wǎng)絡里,對網(wǎng)絡部署有一定的限定,在大規(guī)模分布式集群部署里,這種模式的靈活性沒有辦法滿足需求;
TUN模式走在LVS之后,LVS會在原有報文基礎上封裝IP頭,到了后端RS之后,RS需要解開IP報文封裝,才能拿到原始報文,不管是DR模式還是TUN模式,后端RS都可以看到真實客戶源IP,目的IP是自己的VIP,VIP在RS設備上需要配置,這樣可以直接繞過LVS返回給用戶,TUN模式問題在于需要在后端ECS上配置解封裝模塊,在Linux上已經(jīng)支持這種模塊,但是windows上還沒有提供支持,所以會對用戶系統(tǒng)鏡像選擇有限定。
NAT模式用戶訪問的是VIP,LVS查找完后會將目的IP做DNAT轉換,選擇出RS地址,因為客戶端的IP沒變,在回包的時候直接向公網(wǎng)真實客戶端IP去路由,NAT的約束是因為LVS做了DNAT轉換,所以回包需要走LVS,把報文頭轉換回去,由于ECS看到的是客戶端真實的源地址,我們需要在用戶ECS上配置路由,將到ECS的默認路由指向LVS上,這對用戶場景也做了限制。
2、LVS基于Netfilter框架實現(xiàn)
Netfilter是Linux提供的網(wǎng)絡開放平臺,基于平臺可以開發(fā)自己的業(yè)務功能模塊,早期好多安全廠商都是基于Netfilter做一些業(yè)務模型實現(xiàn),這種模型比較靈活,但通用模型里更多的是兼容性考慮,路徑會非常長;而且通用模型中沒辦法發(fā)揮多核特性,目前CPU的發(fā)展更多是向橫向擴展,我們經(jīng)常見到多路服務器,每路上有多少核,早期通用模型對多核支持并不是特別友善,在多核設計上有些欠缺,導致我們在通用模型上做一些應用開發(fā)時的擴展性是有限的,隨著核的數(shù)量越來越多,性能不增反降。
3、LVS的改進
早期模式的各種限制制約了我們的發(fā)展,所以我們首先做了FullNAT,相比原來的NAT方式,F(xiàn)ullNAT多了SNAT屬性,將客戶端的原IP地址作了轉換;
其次,我們在并行化上做了處理,充分利用多核實現(xiàn)性能線性提升;
然后是快速路徑,我們在做網(wǎng)絡轉發(fā)模型時很容易想到設計快速路徑和慢速路徑,慢速路徑更多是解決首包如何通過設備問題,可能需要查ACL或路由,需要判斷許多和策略相關的東西,后面所有報文都可以通過快速路徑轉發(fā)出去;
還有指令相關優(yōu)化,利用因特爾特殊指令提升性能;
另外針對多核架構,NUMA多節(jié)點內(nèi)存訪問,通過訪問Local節(jié)點內(nèi)存可能獲得更好的延遲表現(xiàn)。
客戶端進來IP首先訪問LVS的VIP,原IP是客戶端的,目的IP是LVS的VIP,經(jīng)過FullNAT轉換后,原IP變成LVS的Local地址,目的地址是LVS選擇出來的RS地址,這樣在RS回包時比較容易,只要路由可達,報文一定會交到LVS上,不需要在RS上做特殊的配置。右面就是DNAT+SNAT轉換,報文就可以通過LVS轉發(fā)回客戶端,這種方式主要帶來應用場景部署靈活性選擇。
通過并行化實現(xiàn)對LVS性能的改善,性能沒有辦法得到線性提升更多的是因為每條路徑都需要訪問全局資源,就會不可避免引入鎖的開箱,另外,同一條鏈接上的報文可能分散在不同的核上,大家去訪問全局資源時也會導致cache的丟失。
所以我們通過RSS技術把同一個五源組報文扔到同一個CPU上處理,保證入方向的所有相同連接上的報文都能交給相同CPU處理,每個核在轉發(fā)出去時都用當前CPU上的Local地址,通過設置一些fdir規(guī)則,報文回來時后端RS訪問的目的地址就是對應CPU上的local地址,可以交到指定的CPU上去處理,這樣一條連接上左右方向報文都可以交給同一個CPU處理,將流在不同的CPU隔離開。
另外,我們把所有配置資源包括動態(tài)緩存資源在每個CPU上作了拷貝, 將資源局部化,這使整個流從進入LVS到轉發(fā)出去訪問的資源都是固定在一個核上的本地資源,使性能達到最大化,實現(xiàn)線性提升。
經(jīng)過我們改進之后,LVS的具體表現(xiàn)如下:
出于對容災和性能提升的考慮,我們做了集群化部署,每個region有不同機房,每個機房有多個調(diào)度單元,每個單元有多臺LVS設備;
每臺LVS經(jīng)過優(yōu)化后,都能達到更高性能,大容量,單臺LVS可以達到4000W PPS,600W CPS、單個group可以到達1億并發(fā);
支持region、IDC、集群和應用級的高可用;
實現(xiàn)了防攻擊功能,并在原版LVS上提供了更豐富的功能,可以基于各個維度做管理控制,精確的統(tǒng)計,流量的分析等。
Tengine
Tengine在應用過程中也遇到了各種問題,最嚴重的就是性能問題,我們發(fā)現(xiàn)隨著CPU數(shù)量越來越多,QPS值并沒有線性提升;Nginx本身是多worker模型,每個worker是單進程模式,多worker架構做CPU親和,內(nèi)部基于事件驅動的模型,其本身已經(jīng)提供了很高的性能,單核Nginx可以跑到1W5~2W QPS。Nginx往下第一層是socket API,socket 往下有一層VFS,再往下是TCP、IP,socket層比較薄,經(jīng)過量化的分析和評估,性能開銷最大的是TCP協(xié)議棧和VFS部分,因為同步開銷大,我們發(fā)現(xiàn)橫向擴展不行,對此,我們做了一些優(yōu)化。
七層反向代理的路徑更長,處理更復雜,所以它的性能比LVS低很多,我們比較關注單機和集群的性能,集群性能可以靠堆設備去解決,單機如果不提升,成本會一直增加,從性能角度來看,有以下的優(yōu)化思路和方向:
基于Kernel做開發(fā),比如優(yōu)化協(xié)議棧;
基于Aliscoket的優(yōu)化,Alisocket是阿里研發(fā)的高性能TCP協(xié)議棧平臺,底層是DPDK,它將資源做了局部化處理,報文分發(fā)不同核處理,性能非常出色;
HTTPS業(yè)務越來越多,流量逐步遞增,我們采用硬件加速卡方式做一些加解密的性能提升,還有HTTPS的會話復用;
基于Web傳輸層的性能優(yōu)化。
從彈性角度看,比如一些公司的應用和用戶熱點有關,當發(fā)生一個社會網(wǎng)絡熱點后,訪問量會急劇變高,我們固有的基于物理機器實現(xiàn)的負載均衡模型在彈性擴展方面是有限制的,對此,我們可以使用VM去做,把反向代理功能放在VM去跑,我們會監(jiān)控實例負載情況,根據(jù)實時需求做彈性擴容縮容;
除了VM,還有調(diào)度單元,我們可以在不同調(diào)度單元做平滑切換,根據(jù)不同的水位情況,通過切換可以把負載均衡實例調(diào)度到不同的單元中去,改善使容量上管理。Tengine本身也做了集群化部署,我們在一個region里有不同的機房,不同的調(diào)度單元,每個調(diào)度單元有多組設備;LVS到Tengine也有健康檢查,如果一臺Tengine有問題,可以通過健康檢查方式摘除,不會影響用戶轉發(fā)能力;
Tengine具備靈活的調(diào)度能力,可以幫助我們應對更多的復雜情況;另外,Tengine也有很多高級的特性,比如基于cookie的會話保持、基于域名/URL的轉發(fā)規(guī)則、HTTP2、Websocket等功能;目前,我們7層單VIP可以支撐10W規(guī)格的HTTPS QPS。
高可用
1、Group
高可用是整個產(chǎn)品很重要的一部分,圖為集群內(nèi)的高可用架構圖,可以看到,在網(wǎng)絡路徑上是全冗余無單點的。具體情況如下:
雙路服務器,每節(jié)點雙網(wǎng)口上聯(lián)不同交換機,增加帶寬,避免跨節(jié)點收包VIP路由兩邊發(fā)不同的優(yōu)先級,不同的VIP,高優(yōu)先級路由在不同的交換機上單機160G轉發(fā)能力,單VIP 80G帶寬,單流 40G帶寬網(wǎng)卡故障不影響轉發(fā),上下游路由自動切換ECMP,VIP路由發(fā)兩邊,通過優(yōu)先級控制從入口集群640G轉發(fā)能力,單vip 320G帶寬會話同步,多播、包觸發(fā)同步、定時同步單機故障不影響轉發(fā)交換機故障不影響轉發(fā),路由秒級切換用戶無感知的升級變更,部分未及時同步的連接重連即可2、AZ
每個機房連接兩個不同路由器,當一個AZ出現(xiàn)故障之后,我們可以無縫切換到另外一個機房,具體情況如下:
3、Region
當用戶訪問域名時,通過DNS解析,可以設定DNS解析到多個regionVIP地址,下沉到某一個Region來看,如果一個機房出現(xiàn)故障,流量可以切換到另一個可用區(qū)繼續(xù)轉發(fā),如果流量進到機房發(fā)現(xiàn)一臺LVS轉發(fā)設備出現(xiàn)故障后,我們可以切換到另外一臺LVS作處理,如果LVS后面掛載的RS出現(xiàn)問題,通過健康檢查也可以快速摘掉設備,將流量轉換到健康的設備上去。我們從多個維度實現(xiàn)高可用,最大限度地滿足用戶的需求。
總結
目前,高性能負載均衡應用主要在幾個方面:
作為公有云基礎組件,為公有云網(wǎng)站、游戲客戶、APP提供負載均衡功能,也針對政府、金融等安全性高的客戶提供專有云支持;為阿里云內(nèi)部云產(chǎn)品RDS、OSS、高防等提供了負載均衡的功能;負載均衡作為電商平臺入口,向淘寶、天貓、1688提供VIP統(tǒng)一接入功能;交易平臺的流量入口也在負載均衡設備上,如支付寶、網(wǎng)上銀行。未來,我們希望有更好的彈性擴展能力,更高的單機處理能力,我們希望VIP主動探測用戶,以及網(wǎng)絡全鏈路監(jiān)控。
- 消息稱去年全球IT支出超過5萬億美元 數(shù)據(jù)中心系統(tǒng)支出大幅增加
- 2025年全球數(shù)據(jù)中心:數(shù)字基礎設施的演變
- 谷歌押注多模態(tài)AI,BigQuery湖倉一體是核心支柱
- 數(shù)字化轉型支出將飆升:到2027年將達到4萬億美元
- 量子與人工智能:數(shù)字化轉型的力量倍增器
- 華為OceanStor Dorado全閃存存儲榮獲CC認證存儲設備最高認證級別證書
- 2024年終盤點 | 華為攜手伙伴共筑鯤鵬生態(tài),openEuler與openGauss雙星閃耀
- 特朗普宣布200億美元投資計劃,在美國多地建設數(shù)據(jù)中心
- 工信部:“點、鏈、網(wǎng)、面”體系化推進算力網(wǎng)絡工作 持續(xù)提升算網(wǎng)綜合供給能力
- 2025年超融合基礎設施的4大趨勢
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。