走進(jìn)K1 Power——看IPS如何綻放Power之光

數(shù)字化轉(zhuǎn)型正在對(duì)傳統(tǒng)產(chǎn)業(yè)進(jìn)行重塑,人工智能、云計(jì)算、大數(shù)據(jù)……為千行百業(yè)的智能升級(jí)注入了先進(jìn)生產(chǎn)力,與此同時(shí),這些前沿技術(shù)對(duì)智慧計(jì)算場(chǎng)景的資源需求也呈現(xiàn)指數(shù)級(jí)增長。數(shù)據(jù)顯示,中國的關(guān)鍵應(yīng)用市場(chǎng)將保持年均10%左右的提升,預(yù)計(jì)到2020年會(huì)有接近100億的規(guī)模。提到處理關(guān)鍵業(yè)務(wù)和密集型負(fù)載,相信Power會(huì)是很多企業(yè)的選擇。如今,圍繞POWER——這一體系結(jié)構(gòu)和通用處理器工程設(shè)計(jì)領(lǐng)域的最佳實(shí)踐,開放的生態(tài)正使其發(fā)展得愈發(fā)繁茂,而浪潮商用機(jī)器有限公司(IPS)即是孕育這一片沃土的重要力量。

從1993年搭載10顆486 CPU的SMP2000,到2007年高效能服務(wù)器和存儲(chǔ)技術(shù)國家重點(diǎn)實(shí)驗(yàn)室落戶浪潮,再到2010年400多位浪潮工程師耗費(fèi)4年研制成功K1小型機(jī),使得中國成為除美國、日本之外全球第三個(gè)具備關(guān)鍵應(yīng)用主機(jī)研制能力的國家……直至2018年基于POWER處理器的K1 Power產(chǎn)品線上市,浪潮在國內(nèi)高端小型機(jī)設(shè)計(jì)的道路上始終扮演著引領(lǐng)者的角色。然而,每一次成功的背后都是關(guān)鍵技術(shù)的突破,時(shí)至今日,浪潮商用機(jī)器有限公司副總經(jīng)理黃家明仍記憶猶新。

走進(jìn)K1 Power——看IPS如何綻放Power之光

浪潮商用機(jī)器有限公司副總經(jīng)理黃家明

2010年32路安騰架構(gòu)的機(jī)器出來時(shí),面臨著一個(gè)大問題就是x86處理器通過緩存一致性協(xié)議的互聯(lián),GPU要和主處理器共享內(nèi)存。為了讓機(jī)器發(fā)揮更大的擴(kuò)展效率,芯片之間要具備互聯(lián)網(wǎng)絡(luò),但當(dāng)時(shí)使用英特爾QPI協(xié)議連接要符合其處理器接口和規(guī)范,必須經(jīng)過授權(quán),如果是自主芯片之間使用QPI互聯(lián)是被禁止的,因此浪潮要自行研發(fā)高速協(xié)議網(wǎng)絡(luò)以實(shí)現(xiàn)緩存一致性。

“我們做了緩存一致性的協(xié)議處理芯片。這個(gè)芯片類似于一個(gè)沒有計(jì)算核心的處理器,但是能夠處理處理器核心之間通信的緩存一致性,這樣能夠把32路的安騰芯片結(jié)合起來,形成一臺(tái)機(jī)器來跑,這是國內(nèi)的重要突破。”黃家明說。這枚芯片是專為與QPI協(xié)議對(duì)接設(shè)計(jì)的,可以和英特爾處理器通信,能理解每一次緩存、每一次內(nèi)存事務(wù)的過程。這次互聯(lián)協(xié)議的技術(shù)攻關(guān),為日后在其他平臺(tái)上做不同的協(xié)議實(shí)現(xiàn)奠定了研發(fā)基礎(chǔ)。

堅(jiān)持自主創(chuàng)新,浪潮一直引領(lǐng)著國內(nèi)高端小型機(jī)設(shè)計(jì)發(fā)展方向,突破了小型機(jī)多項(xiàng)核心技術(shù),其中,浪潮自研的雙翼可擴(kuò)展緊耦合體系架構(gòu),支持互連網(wǎng)絡(luò)單跳步32路擴(kuò)展,獲得了PCT國際專利授權(quán)。在體系結(jié)構(gòu)之上,浪潮消除了底層硬件差異化,在整機(jī)上開發(fā)了KUX操作系統(tǒng),向上與UNIX接口兼容。關(guān)鍵應(yīng)用層面,浪潮一方面支持IBM DB2的部署,另一方面對(duì)與Oracle最接近且兼容性最好的KDB數(shù)據(jù)庫進(jìn)行移植,并且通過了IBM的嚴(yán)苛測(cè)試。

正是由于浪潮在架構(gòu)設(shè)計(jì)和關(guān)鍵應(yīng)用上的自研實(shí)力,為K1 Power的誕生鋪平了道路。目前,IPS在2019年上半年中國UNIX市場(chǎng)的占有率已超過64%,以往購買過POWER8的金融客戶中,有80%是省、市級(jí)城商行,以及農(nóng)信和全國的股份制銀行,這些銀行有80%均購買了IPS的設(shè)備,后者為舊版Power機(jī)器提供了平滑、無縫的遷移方案。核心客戶的認(rèn)可足以說明K1 Power的過硬品質(zhì),而這也得益于IPS的一系列“秘密武器”。

“獨(dú)步江湖”的高性能體驗(yàn)

作為瞄準(zhǔn)核心業(yè)務(wù)應(yīng)用的動(dòng)力源泉,POWER處理器在性能設(shè)計(jì)方面的獨(dú)特性一直“獨(dú)步江湖”。通常,如果是x86處理器每個(gè)內(nèi)核能支持2個(gè)線程,那么POWER處理器的每個(gè)內(nèi)核就可以有8個(gè)線程,8路多線程POWER處理器內(nèi)核的平均性能幾乎是x86內(nèi)核的兩倍。較上一代產(chǎn)品,POWER9處理器的主頻可以達(dá)到4GHz,每核性能提升40%,單核線程數(shù)提升4倍,L3高速緩存提升3.3倍,處理器互聯(lián)帶寬提升7倍,單處理器內(nèi)存容量提升2.7倍,內(nèi)存帶寬提升2倍,I/O總帶寬提升2倍,支持PCIe 4.0、NVLink 2.0、CAPI 2.0、New CAPI等協(xié)議。

“Power支持PCIe 4.0和NVLink 2.0,可以對(duì)CPU和I/O之間提供高帶寬支持,滿足關(guān)鍵應(yīng)用負(fù)載的要求。”浪潮商用機(jī)器有限公司產(chǎn)品研發(fā)部副總經(jīng)理尹宏偉表示,“K1 Power在商業(yè)數(shù)據(jù)庫如EDB、DB2和Oracle、SPARC這類應(yīng)用系統(tǒng)上,都是兩倍以上的性能提升。對(duì)于開源的數(shù)據(jù)庫,我們的測(cè)試也是有兩倍以上的性能增長。”此外,整機(jī)性能更強(qiáng)的Power服務(wù)器還可以通過分區(qū)的形式滿足不同的應(yīng)用負(fù)載,大幅提升資源使用效率。

在關(guān)鍵業(yè)務(wù)場(chǎng)景,Power一貫的Scale Up優(yōu)勢(shì)使其在核心數(shù)據(jù)庫平臺(tái)能夠輕松處理大規(guī)模業(yè)務(wù)并發(fā),而在像分布式存儲(chǔ)、大數(shù)據(jù)、AI等新興的業(yè)務(wù)場(chǎng)景,Power同樣優(yōu)勢(shì)明顯。例如在運(yùn)行開源數(shù)據(jù)庫MariaDB時(shí),搭載POWER9 LaGrange處理器的雙路FP5290G2較四路x86 6148平臺(tái),每核性能提升1.6倍,CPU整體性能提升1.75倍。對(duì)于客戶應(yīng)用來說,在同等功耗和同等計(jì)算空間內(nèi),得到了翻倍的性能提升,有效降低了TCO。

此外,IPS研發(fā)團(tuán)隊(duì)還針對(duì)客戶具體需求進(jìn)行定制化研發(fā)調(diào)優(yōu),使得K1 Power在特定場(chǎng)景下的運(yùn)行能力顯著加強(qiáng)。浪潮商用機(jī)器有限公司產(chǎn)品營銷部總經(jīng)理江豫京介紹稱:“前段時(shí)間,我們和國家某個(gè)證券相關(guān)機(jī)構(gòu)做了POC測(cè)試,用K1 Power加上國產(chǎn)的存儲(chǔ)設(shè)備來搭建平臺(tái),替換以前的系統(tǒng)。在僅遷移平臺(tái)(300個(gè)應(yīng)用),還沒有做調(diào)優(yōu)的情況下,我們的性能提升就讓業(yè)務(wù)時(shí)間節(jié)省了40%。因此,基于浪潮在高端服務(wù)器研發(fā)和設(shè)計(jì)的技術(shù)積累,結(jié)合POWER服務(wù)器的強(qiáng)大功能,我們有信心在關(guān)鍵業(yè)務(wù)和創(chuàng)新應(yīng)用場(chǎng)景下為客戶帶來更多價(jià)值。”

不僅跑得快 還要跑得穩(wěn)

就像一輛好的超級(jí)跑車,不僅要有飛一般的速度,跑得穩(wěn)才是成功抵達(dá)終點(diǎn)的保障。穩(wěn)定性、可靠性,以及設(shè)計(jì)、性能、服務(wù)等維度的高標(biāo)準(zhǔn),是Power在設(shè)計(jì)之初就秉承的第一要?jiǎng)?wù)。通過引入RAS(Reliability、Availability、Serviceability)設(shè)計(jì)理念,并增加獨(dú)立的故障服務(wù)處理器等模塊,K1 Power要在部件、系統(tǒng)、測(cè)試、散熱等各個(gè)維度實(shí)現(xiàn)系統(tǒng)的穩(wěn)定可靠。用黃家明的話說,半導(dǎo)體器繁多的顆??倳?huì)出現(xiàn)或大或小的問題,處理這些問題需要多個(gè)業(yè)務(wù)部門的協(xié)作,所涉及的必要技術(shù)手段就是冗余。

走進(jìn)K1 Power——看IPS如何綻放Power之光

RAS設(shè)計(jì)理念

除了空間冗余,即多路徑冗余容錯(cuò),還要考慮到時(shí)間冗余,與x86仿真指令可能出現(xiàn)的讀回故障導(dǎo)致宕機(jī)不同,Power支持的指令集重試和動(dòng)態(tài)路徑選擇,使得其在遇到指令路徑訪問不通時(shí),可以重新選一條路徑去訪問遠(yuǎn)程的內(nèi)存,這樣就大幅降低了故障率。即可理解為每個(gè)系統(tǒng)控制單元中有兩個(gè)冗余的時(shí)鐘卡,通過線纜對(duì)系統(tǒng)提供冗余的時(shí)鐘,當(dāng)任意一個(gè)時(shí)鐘卡出現(xiàn)故障時(shí),另一組時(shí)鐘可以無縫切換保持系統(tǒng)穩(wěn)定運(yùn)行。

無論是CPU與CPU之間,還是CPU與內(nèi)存之間,亦或是內(nèi)存DRAM芯片本身,IPS將冗余做到了芯片級(jí)、鏈路級(jí)和板機(jī)布線層面。例如在部件和鏈路上,電源的穩(wěn)壓模塊做到了N+2的冗余設(shè)計(jì),相當(dāng)于有多套變壓器把系統(tǒng)12V電壓分給板機(jī)的各個(gè)元器件使用,而x86則是一套變壓器供多個(gè)電壓給板機(jī)系統(tǒng)使用。對(duì)于電源、SMP線纜、時(shí)鐘、FSP模塊、I/O控制器等關(guān)鍵部件,IPS都做了冗余設(shè)計(jì)。

除此之外,K1 Power還借助多達(dá)16萬個(gè)故障檢查器,實(shí)時(shí)監(jiān)測(cè)著系統(tǒng)運(yùn)行狀態(tài),對(duì)故障進(jìn)行捕獲,并在故障擴(kuò)散傳播之前隔離到限定區(qū)進(jìn)行在線修復(fù),甚至可以做到對(duì)CPU內(nèi)部核心級(jí)別的故障隔離,確保系統(tǒng)持續(xù)運(yùn)行。為此,IPS的首錯(cuò)數(shù)據(jù)捕獲機(jī)制FFDC(First Failure Data Capture)在設(shè)計(jì)階段就在進(jìn)行各類錯(cuò)誤模擬,在實(shí)際運(yùn)行階段會(huì)做錯(cuò)誤捕獲。發(fā)生錯(cuò)誤之后,在維護(hù)階段還可以做錯(cuò)誤重現(xiàn),把所有可能產(chǎn)生的錯(cuò)誤提前做到預(yù)警、備案和處理。對(duì)于沒有糾錯(cuò)機(jī)制的部件,K1 Power還支持重試機(jī)制,通過重試來判斷故障是否為真。

在黃家明看來,錯(cuò)誤捕獲和隔離的RAS設(shè)計(jì)可以看作是Power的精華,“因?yàn)檫@部分RAS實(shí)際上涉及到了各個(gè)方面,而且每一項(xiàng)功能的實(shí)現(xiàn)都要從芯片出發(fā),從板機(jī)的設(shè)計(jì)到系統(tǒng)的設(shè)計(jì),以及操作系統(tǒng)的固件、BIOS,這就需要與負(fù)責(zé)操作系統(tǒng)的同事合作實(shí)現(xiàn),因?yàn)椴僮飨到y(tǒng)里面需要加入更多針對(duì)性的內(nèi)核驅(qū)動(dòng)去處理這些故障,涉及到內(nèi)存的隔離、遷移,包括內(nèi)存數(shù)據(jù)多副本的故障轉(zhuǎn)移等。這就要求有一個(gè)專門面向高可靠性設(shè)計(jì)的團(tuán)隊(duì)。”

只做超出客戶預(yù)期的產(chǎn)品

筆者記得浪潮商用機(jī)器有限公司總經(jīng)理胡雷鈞曾講述過一個(gè)生動(dòng)的體驗(yàn):在地鐵建設(shè)過程中,有很多項(xiàng)目是需要趕工期的,有時(shí)候整個(gè)土建還沒有完成,信息化設(shè)備就進(jìn)場(chǎng)了。機(jī)器里面積了一層土,連芯片上面的字都看不見了,但Power的機(jī)器依然能夠穩(wěn)定運(yùn)行,而且是在高鹽、高蝕,高粉末粉塵的環(huán)境中。這樣高品質(zhì)的機(jī)器所經(jīng)歷的硬件設(shè)計(jì)考驗(yàn)必定也是極端嚴(yán)格的。

由于Power處理的信號(hào)都是高速信號(hào),對(duì)信號(hào)之間的干擾非常敏感,為了保證高速信號(hào)在CPU、內(nèi)存、I/O、加速器之間傳遞的穩(wěn)定性,所有與高速信號(hào)走線層相鄰的平面層都是地平面,以此更好的隔絕電子噪音造成的信號(hào)串?dāng)_。在板機(jī)設(shè)計(jì)時(shí),K1 Power采用了40層混壓主板設(shè)計(jì),做到每兩層信號(hào)之間都有一個(gè)D層,并且每一片主板都通過了IBM標(biāo)準(zhǔn)苛刻的熱力沖擊測(cè)試,實(shí)現(xiàn)100%可靠出貨。

散熱方面,K1 Power遵循“Less power, Less failure”的原則,在設(shè)計(jì)時(shí)就選用了低功耗的器件,提升零件可靠性,例如使用銦金屬片導(dǎo)熱材質(zhì)而不是導(dǎo)熱膏,使得導(dǎo)熱效率提升近10倍,且長期有效。同時(shí),還借助動(dòng)態(tài)分區(qū)散熱控制技術(shù),讓各發(fā)熱區(qū)域獨(dú)立風(fēng)扇轉(zhuǎn)速控制,提高散熱利用率,保障CPU等元器件性能穩(wěn)定發(fā)揮。

深入到系統(tǒng)底層,K1 Power在挑選元器件和部件選型時(shí)有著更高的標(biāo)準(zhǔn)。例如使用的抗硫化電阻能夠在110度極限環(huán)境測(cè)試條件下較傳統(tǒng)電阻使用壽命高4倍以上,設(shè)計(jì)壽命遠(yuǎn)超7年;鋁制框設(shè)計(jì)的風(fēng)扇增加了自重讓系統(tǒng)減震效果更好,進(jìn)而提升了系統(tǒng)性能和運(yùn)行可靠性,設(shè)計(jì)壽命達(dá)到22年;穩(wěn)定的自身散熱系統(tǒng)不僅能提升導(dǎo)熱效率,還可以在硫化環(huán)境下能避免老化。

為什么Power的研發(fā)周期很長?有很大一部分原因是做了大量的仿真工作,將潛在風(fēng)險(xiǎn)提前消除。拿結(jié)構(gòu)仿真來說,其包括結(jié)構(gòu)應(yīng)力靜態(tài)分析,振動(dòng)及沖擊結(jié)構(gòu)動(dòng)態(tài)分析,可有效控制結(jié)構(gòu)可靠性設(shè)計(jì)風(fēng)險(xiǎn);再如散熱仿真,通過建立精度更高、粒度更細(xì)的散熱仿真模型,可提高散熱仿真的效率,降低服務(wù)器的散熱與能耗,提升整機(jī)可靠性;而電信號(hào)仿真,則通過建立高精度信號(hào)仿真,保障了Power產(chǎn)品信號(hào)傳輸速率,確保信號(hào)傳輸質(zhì)量和抗干擾能力。

在仿真之后的檢測(cè)和測(cè)試環(huán)節(jié),K1 Power的每一臺(tái)機(jī)器都會(huì)經(jīng)過覆蓋率100%的功能測(cè)試,高端機(jī)型測(cè)試大項(xiàng)共計(jì)660多項(xiàng),測(cè)試?yán)匣瘯r(shí)間超過48小時(shí),并且經(jīng)過嚴(yán)格的Corner-test,確保每臺(tái)服務(wù)器都能夠在極限電壓和動(dòng)態(tài)頻率下穩(wěn)定工作。無論是檢驗(yàn)覆蓋率還是測(cè)試強(qiáng)度,均比x86服務(wù)器高出不少。例如在PCB熱沖擊測(cè)試中,x86服務(wù)器對(duì)PCB的熱沖擊測(cè)試是緩慢升溫,然后再下去,而Power則是急劇升溫,維持一段時(shí)間再下去,測(cè)試標(biāo)準(zhǔn)更為嚴(yán)格。

定制能力決定與眾不同

可以說,IPS對(duì)Power的定制化開發(fā)能力,讓后者更上了一層臺(tái)階。從安全性來看,IPS在部件層通過自主研發(fā)確保了系統(tǒng)更加穩(wěn)定,對(duì)所有的部件均有安全認(rèn)證機(jī)制,類似于可信計(jì)算的方式使得Secure Boot引導(dǎo)時(shí),如果操作者的指紋信息沒有在TPM芯片內(nèi)錄入,就無法進(jìn)行操作,新更換的部件在沒有經(jīng)過認(rèn)證前,也是無法安裝上運(yùn)行的。在固件層面,經(jīng)過檢驗(yàn)的固件信息貼片于芯片內(nèi)部,只有在工廠模式中才能寫入,用戶模式則無法進(jìn)行修改。AIX操作系統(tǒng)安全加固模塊(K1 Power SSR)、國產(chǎn)可信計(jì)算模塊、符合商用密碼證書的外置硬件安全模塊(HSM)、自研的可信操作系統(tǒng)KUX……都是IPS為客戶保駕護(hù)航的獨(dú)門絕技。

從整合能力來看,IPS的技術(shù)團(tuán)隊(duì)一直在思考如何結(jié)合x86的技術(shù)理念,拓展Power和OpenPOWER的產(chǎn)品邊界。例如,IPS為某客戶在兩顆OpenPOWER測(cè)試時(shí),曾被要求把Power做到600瓦,于是在設(shè)計(jì)時(shí)把x86的整套固件包括電源控制和熱管理系統(tǒng)都移植到Power平臺(tái),滿足了客戶需求;再如,IPS把IBM原來的Call Home功能、機(jī)器管理系統(tǒng)等都針對(duì)本地服務(wù)進(jìn)行了自主設(shè)計(jì);在模塊上,把TPM“改成了”PCM,符合了中國市場(chǎng)的標(biāo)準(zhǔn)。

由這種整合能力更進(jìn)一步,即是浪潮成功的JDM模式——通過定制化生產(chǎn)交付的敏捷創(chuàng)新模式,這無疑更加適應(yīng)互聯(lián)網(wǎng)時(shí)代的需求,也是IPS開拓新興市場(chǎng)的巨大優(yōu)勢(shì)。尹宏偉認(rèn)為,互聯(lián)網(wǎng)客戶的快速需求使得廠商沒有時(shí)間花費(fèi)半年去測(cè)試產(chǎn)品,定制化可以更多地集成浪潮現(xiàn)有的產(chǎn)品或者架構(gòu),對(duì)重點(diǎn)需求進(jìn)行局部開發(fā),快速做出一類Power服務(wù)器來響應(yīng)用戶。對(duì)于云計(jì)算、AI這類新興的資源部署方式和技術(shù)應(yīng)用,IPS也有著相應(yīng)的解決方案,可讓關(guān)鍵數(shù)據(jù)庫運(yùn)行在云架構(gòu)上,根據(jù)客戶需求做動(dòng)態(tài)調(diào)整,而Power在I/O能力、內(nèi)存通信帶寬、芯片互聯(lián)等方面的優(yōu)勢(shì),則為用戶提供了x86之外的互補(bǔ)甚至是更好的選擇。

綜上所述,IPS憑借浪潮20多年在高端小型機(jī)上的成功經(jīng)驗(yàn),為K1 Power的成功打下了堅(jiān)實(shí)的基礎(chǔ),并將這一優(yōu)勢(shì)繼續(xù)發(fā)揚(yáng)光大。自2018年5月2日正式運(yùn)營以來,IPS以其過硬的產(chǎn)品品質(zhì)、貼近客戶的需求定制,以及深厚的自主研發(fā)能力快速占據(jù)了中國Unix市場(chǎng),為Power打上了IPS的印記。K1 Power,不僅向x86客戶證明了什么是物有所值,更為Power生態(tài)的發(fā)展之路描繪出了一個(gè)絢爛多彩的未來。

來源:中關(guān)村在線

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2019-11-13
走進(jìn)K1 Power——看IPS如何綻放Power之光
數(shù)字化轉(zhuǎn)型正在對(duì)傳統(tǒng)產(chǎn)業(yè)進(jìn)行重塑,人工智能、云計(jì)算、大數(shù)據(jù)……為千行百業(yè)的智能升級(jí)注入了先進(jìn)生產(chǎn)力,與此同時(shí),這些前沿技術(shù)對(duì)智慧計(jì)算

長按掃碼 閱讀全文