騰訊云后阿里云再出事故,企業(yè)上云如何避免云計算事故造成損失?

騰訊云后阿里云再出事故,企業(yè)上云如何避免云計算事故造成損失?

阿里云再次發(fā)生故障,這已是2019年的第二起。

3月2日23時55分左右,阿里云開始出現(xiàn)大規(guī)模宕機故障,位于華北地區(qū)的多家互聯(lián)網(wǎng)公司的IT運維人員發(fā)現(xiàn)多個APP和網(wǎng)站開始陷入卡頓。這場事故,持續(xù)了三個小時左右。經緊急排查處理后,3月3日早間云服務全部恢復正常。針對故障,阿里云表示會根據(jù)SLA協(xié)議(服務合同),盡快處理賠償事宜。

十天前,阿里云今年的第一起事故被曝光。2月22日,有媒體報道了阿里云云效平臺的源代碼泄露問題,涉及40 家企業(yè)共 200 余項目,甚至還波及用戶隱私敏感數(shù)據(jù)。此事還引起了“Internal之爭”,即Internal權限到底是公司內部公開還是對整個云效平臺公開,不同企業(yè)有不同理解,但最終還是造成了源碼泄露。后來,阿里云就此事作出回應,并在網(wǎng)站醒目標識并給出告警。

事實上,阿里云源代碼泄露問題在去年8月就已被用戶發(fā)現(xiàn),只是到今年2月份才被媒體曝出。

縱觀近幾年云計算發(fā)展,云計算事故就沒有停止過。

不管是知名云計算廠商,還是剛上路的云計算初創(chuàng)企業(yè),服務器中斷以及客戶數(shù)據(jù)丟失等問題,頻頻困擾著云計算企業(yè)。

騰訊云后阿里云再出事故,企業(yè)上云如何避免云計算事故造成損失?

2012年圣誕節(jié)前夕,亞馬遜AWS的彈性負載均衡服務出錯,導致Netflix停機。

2014年11月18日,由于軟件更新及性能增加,微軟zure存儲服務發(fā)生大規(guī)模斷電,這種情況在2015年12月再次發(fā)生。

2016年5月9日,Salesforce.com的硅谷NA14實例脫機,導致其斷電超過24個小時。從那之后,Salesforce將其大部分工作量轉移到了AWS上。

2016年10月21日,甲骨文旗下的DYN(DNS業(yè)務)遭遇了一系列分布式拒絕服務(DDoS)攻擊,致使Airbnb、Twitter、 Amazon、Ancestry、 Netflix及PayPal等公司的業(yè)務均受到不同程度的影響。

即便云計算安全技術及防御設施不斷進步,云計算故障仍舊時有發(fā)生。據(jù)不完全統(tǒng)計,單是2018年就有數(shù)十起云計算故障發(fā)生,涉及國內外各大知名云計算平臺。其中比較有影響的,包括以下幾個事故。

騰訊云后阿里云再出事故,企業(yè)上云如何避免云計算事故造成損失?

4月6日,微軟Office 365和Azure Active Directory訪問出現(xiàn)問題,幾年來微軟云計算出現(xiàn)多次此類故障。

6月15日,因重復分配內部IP地址,谷歌云虛擬機實例大量出現(xiàn)聯(lián)不上網(wǎng)的問題。

6月27日,由于運維失誤,導致一些客戶訪問阿里云官網(wǎng)控制臺和使用部分產品功能時出現(xiàn)問題。受影響范圍包括阿里云官網(wǎng)控制臺,以及MQ、NAS、OSS等產品功能。這次故障被阿里云內部定義為S1級別(在阿里巴巴的線上業(yè)務故障級別中,對S1的定義是:核心業(yè)務重要功能不可用,影響部分用戶,造成一定損失)。

7月24日,騰訊云廣州區(qū)域部分用戶出現(xiàn)資源訪問失敗、控制臺登錄異常等情況。經排查,是因騰訊云廣州一區(qū)的主備兩條運營商網(wǎng)絡鏈路同時中斷所導致。但業(yè)內人士均知,兩條運營商網(wǎng)絡鏈路同時被挖斷的情況并不常見,所以對騰訊云這次事故的主要原因仍有存疑。

8月,騰訊云發(fā)生故障,直接導致北京的一家初創(chuàng)公司數(shù)據(jù)全部丟失。事實上,此事發(fā)生于7月,只是到8月才被曝光。

在2018年的云計算事故中,影響面比較廣的當屬騰訊云的兩次故障事件。

第一個事件,正是上文提到的初創(chuàng)公司數(shù)據(jù)丟失事件。

騰訊云后阿里云再出事故,企業(yè)上云如何避免云計算事故造成損失?

2018年7月,北京一家主要產品為“前沿數(shù)控自媒體”初創(chuàng)公司,在騰訊云的存儲數(shù)據(jù)全部丟失了。某個是時間段,前沿數(shù)控的程序員發(fā)現(xiàn)無法登錄云服務器,就反饋給騰訊云。得到的回復是“北京三區(qū)部分云硬盤出現(xiàn)故障,正在緊急恢復中”。

幾天后,騰訊云告知前沿數(shù)控,這些丟失的數(shù)據(jù)無法找回了。于是,雙方開始賠償協(xié)商。前沿數(shù)控索賠1101.6萬元,而騰訊云只愿意賠償13.29萬,雙方陷入僵持。

而此事之所以傳播開去,是因為騰訊云承諾9個9(騰訊云承諾99.9999999%的數(shù)據(jù)可靠性)的安全保障,也沒能保住前沿數(shù)控的數(shù)據(jù),且不能給予客戶認為合理的賠償,進而引發(fā)了諸多云服務使用者的熱烈討論。最終輿論演變?yōu)?,前沿?shù)控在操作上存在失誤,但騰訊云服務的可靠性到底又有多高?廣告宣傳又有多少真實的存在?

此事表明,即便云服務商給予再高的承諾,云服務使用者也應本著對數(shù)據(jù)服務的態(tài)度,數(shù)據(jù)一定要多云或者異地備份,不能完全依賴云服務商。否則,一但出現(xiàn)問題,就是賠償?shù)脑俣?,之前的經營數(shù)據(jù)也是無法挽回,甚至足以毀掉一個項目。

如果說數(shù)據(jù)丟失事故屬于“天災”,那騰訊云的第二個事故則可以歸結為“人禍”。2018年8月,女性短視頻社區(qū)App“她拍”上線了一款名為“她face+”的P圖小程序,可將用戶五官和臉型融合到其他圖片素材中。她拍與騰訊云簽訂一年合同,購買其云服務及一項名為“人臉融合”的技術服務,每月支付500萬左右費用。

騰訊云后阿里云再出事故,企業(yè)上云如何避免云計算事故造成損失?

騰訊云的“人臉融合”技術由天天P圖提供支持,此前兩個團隊均屬騰訊SNG事業(yè)群。9月27號天天P圖停止向騰訊云提供技術支持,并力推同類小程序“瘋狂變臉”。期間恰逢騰訊架構調整,因分屬不同事業(yè)群兩團隊溝通協(xié)商難度加大。雙方多次溝通,但原合同無法繼續(xù)履行。

最終,10月17日達成結果,45天過渡期后“天天P圖”不再為“她face+”提供技術支持服務?!八摹眲?chuàng)始人王宏達認為騰訊為推同類產品損害企業(yè)客戶的利益,起訴起訴騰訊云違約,并索賠一個億。

這個事件,意味著企業(yè)上云用云的風險除了云計算平臺本身,還有很大的人為因素在內。這也是很多企業(yè)一直擔心的問題,如果核心數(shù)據(jù)與模式被云計算廠商掌握并推出同類產品,企業(yè)又該如何是好?云計算廠商能夠拿到所服務企業(yè)的任何數(shù)據(jù),想要擠兌競品那是易如反掌之事。

看完上面所述事故,大家應該已經發(fā)現(xiàn),云計算事故難以避免,至少現(xiàn)在這個階段是這樣。但是在工業(yè)互聯(lián)網(wǎng)發(fā)展的大趨勢下,企業(yè)上云的進程又是不可逆的,換言之就是不管企業(yè)如何考慮及看待云計算,最終都要主動或者被動上云的。因此,對亟待互聯(lián)網(wǎng)轉型的企業(yè)而言,云計算安全的問題就變成了出現(xiàn)事故如何賠償?shù)膯栴}。

騰訊云后阿里云再出事故,企業(yè)上云如何避免云計算事故造成損失?

其實對企業(yè)來說,要解決上云安全問題,至少要遵循兩點:一是將安全提到最高,二是把損失降到最低。這兩點,對于云計算平臺和上云企業(yè)都非常重要。

偉哥認為,在安全問題上,云計算平臺當盡量做到以下幾點:

首先,云計算平臺當盡量通過技術及管控手段將安全事故率降到最低,但再先進的技術也不能保證萬無一失,仍舊需要相應的運營措施保證安全的最大化。

其次,還要在維護人員的管理方面,做更詳盡的管理規(guī)劃,杜絕技術之外的人為安全因素。

同時,還要明確安全責任問題,便于發(fā)生事故之后在處理問題上有據(jù)可依。對于這一點,目前很多廠商都已在做,譬如AWS和阿里云和AWS都提出了安全責任共擔模型,阿里云負責云平臺基礎安全防護,用戶負責虛擬化層以上的組件安全、業(yè)務安全等。

還有一點,云平臺作為服務提供方,應該對企業(yè)用戶提供一定的安全使用培訓,確保每個客戶全面了解云計算的應用操作,避免因誤操作而造成平臺與企業(yè)的多方損失。

從企業(yè)用戶安全角度考慮,云計算安全就是企業(yè)應該學會識云用云。

騰訊云后阿里云再出事故,企業(yè)上云如何避免云計算事故造成損失?

首先,企業(yè)要有上云安全意識。當時刻提醒企業(yè)管理者云計算安全的重要性,云平臺安全措施并不能保障數(shù)據(jù)的絕對安全。

其次,企業(yè)上云盡量不要把雞蛋放到同一個籃子。一但云計算平臺出現(xiàn)事故,就有可能導致企業(yè)多年經營全軍覆沒。目前來說,多云方案是最有效的降低數(shù)據(jù)丟風險的手段,企業(yè)應該將多云方案應該由之前的備選方案轉變?yōu)槭走x,以將數(shù)據(jù)安全隱患降到最低。

第三,對于沒有能力搞混合云以及多云方案的初創(chuàng)企業(yè),要學會“狡兔三窟”。除了應用云計算之外,至少應該做到數(shù)據(jù)的異地存儲,以免出現(xiàn)“前沿數(shù)控”哪種數(shù)據(jù)全丟的情況。

第四,小企業(yè)在大型云計算平臺往往會受到不公待遇,還需一定的監(jiān)管及規(guī)則。小微企業(yè)話語權小,甚至會出現(xiàn)上述案例中被“隨意處置”的情況。關于這一點,呼吁相關機構盡快介入監(jiān)管,以確保在推動企業(yè)上云的同時,保證中小企業(yè)的合法權益。

第五,企業(yè)要盡量了解各種云計算平臺。公有云、混合云、私有云每個方案都不是唯一的,上云企業(yè)出于安全考慮,當充分了解幾種類型的優(yōu)缺點,然后根據(jù)企業(yè)自身情況選擇不同方案,以確保企業(yè)數(shù)據(jù)的絕對安全。

此外,企業(yè)亦應多關注更多保障安全的途徑。在理賠方面,除了云平臺的賠償,上云企業(yè)亦可關注一下相關理財機構推出的云保險等安全理賠項目。

得益于工業(yè)互聯(lián)網(wǎng)的快速發(fā)展,企業(yè)上云乃是大勢所趨。政策及經濟形勢造就了企業(yè)上云紅利,云計算廠商規(guī)模得以快速擴大。但在擴大的同時更要保證用戶的數(shù)據(jù)安全,只有解決了安全問題才能打消企業(yè)心中顧慮,才能讓企業(yè)安心選擇云服務廠商,安心上云。

所以,阿里云、騰訊云等多個云計算平臺的事故,反映的是整個云計算行業(yè)當前存在的安全問題。解決或者不能說明這些安全問題,無疑會對即將上云的企業(yè)造成一定的心理阻礙。

騰訊云后阿里云再出事故,企業(yè)上云如何避免云計算事故造成損失?

事實上,平臺與用戶雙方誰也不想發(fā)生安全事故。但若出現(xiàn)問題,平臺就應確保以更穩(wěn)妥合理的方式去解決問題。不然,就會造成企業(yè)對云計算平臺的信任度下降。

上文也有提及,綜合而言解決用戶信任問題關鍵在于兩點:

一是如何盡量避免出現(xiàn)此類問題。一方面需要云服務商在安全層面上做足功夫,優(yōu)先保障云服務的安全最大化;另一方面從用戶角度考慮云服務商的便捷性與安全性,只有讓用戶以最簡單的方式享受高效安全的云服務,使安全問題概率降到最低,才能增加用戶的信任感,進而實現(xiàn)口碑效應。

二是出現(xiàn)問題之后,如何妥善的處理。隨著企業(yè)上云數(shù)量的增加,可以預見今后此類事件會更多。以前此類事件可能影響不會太大,但現(xiàn)在安全事件的發(fā)生概率關聯(lián)著潛在上云企業(yè)對云服務商的品牌形象的認知。對某些小問題處理不當,可能就會引發(fā)用戶的不滿,進而放棄使用云服務。所以,不怕出現(xiàn)問題,怕的是出現(xiàn)問題以后不能妥善合理的解決。只要云計算平臺能夠妥善解決善后問題,其他問題的解決也就不在話下了。

最后,偉哥再次叮囑云平臺與企業(yè)都要引以為戒,盡量避免出現(xiàn)云計算事故造成企業(yè)重大損失的情況。

工業(yè)互聯(lián)網(wǎng)趨勢下的企業(yè)上云大有可為,希望云平臺和正在數(shù)字化轉型的企業(yè),都能最大化享受這波紅利。

【王吉偉,關注IOT與TMT,專注工業(yè)互聯(lián)網(wǎng)及企業(yè)數(shù)字化轉型研究。公號ID:jiwei1122】

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

2019-03-04
騰訊云后阿里云再出事故,企業(yè)上云如何避免云計算事故造成損失?
阿里云開始出現(xiàn)大規(guī)模宕機故障,位于華北地區(qū)的多家互聯(lián)網(wǎng)公司的IT運維人員發(fā)現(xiàn)多個APP和網(wǎng)站開始陷入卡頓。

長按掃碼 閱讀全文