siemens x
工業(yè)無線

漫談虛擬化(三)

2025China.cn   2015年09月07日

  4.總在正常運(yùn)行

  虛擬化的悖論是:它消除了對(duì)硬件的依賴,但同時(shí)也使硬件更為重要。虛擬機(jī)的合并更加依賴硬件的可靠性,因?yàn)楦俚奈锢矸?wù)器現(xiàn)在要支持一個(gè)虛擬機(jī)的大集合。

  關(guān)鍵業(yè)務(wù)應(yīng)用對(duì)一個(gè)公司的運(yùn)營是至關(guān)重要的。當(dāng)一臺(tái)服務(wù)器必須支持多個(gè)工作負(fù)荷時(shí),作為合并業(yè)務(wù)處理的一部分來看,甚至非關(guān)鍵應(yīng)用也變得至關(guān)重要。

  雖然有多種解決方案可以提高應(yīng)用的可靠性,容錯(cuò)提供了一種基于硬件的方法,能夠確保連續(xù)的正常運(yùn)行時(shí)間。

  9的個(gè)數(shù)

  如果100%的是完美的話,那么99.999+%的可用性算佳了。解決方案怎么做才能達(dá)到這個(gè)指標(biāo)?先試試最普通老的99%吧!這是正確的做法, x86服務(wù)器往往能讓其上運(yùn)行的服務(wù)平均達(dá)到99%的可用性。這看起來相當(dāng)不錯(cuò),直到你認(rèn)為這對(duì)你的組織意味著什么。兩個(gè)9的可用性意味著系統(tǒng)在一年中的意外停機(jī)時(shí)間達(dá)到了87.6小時(shí)–而你決不會(huì)希望有這些小時(shí)!現(xiàn)在來考慮一下停機(jī)一小時(shí)的成本:一般公司的損失在10萬至15萬美元之間。你可以自己算算。

  可以比較容易地達(dá)到三個(gè)9:99.9%。它所需要的一臺(tái)好服務(wù)器只需帶有冗余電源、風(fēng)扇和一個(gè)磁盤陣列(RAID),再加上最佳實(shí)踐。你可以得到三個(gè)9,相當(dāng)于每年有8.76小時(shí)的意外停機(jī)時(shí)間。這看上去似乎是一個(gè)大的躍進(jìn),但在高峰處理時(shí)段的停機(jī)時(shí)間仍然嚴(yán)重地突破了你的底線。

  再上一個(gè)等級(jí)為99.95%的正常運(yùn)行時(shí)間往往需要集群技術(shù)。通常稱為高可用性(HA)解決方案。失效后,集群會(huì)在一個(gè)健康的系統(tǒng)上重啟應(yīng)用。有些集群方案聲稱自己達(dá)到了99.99%,但一年只有52分鐘的停機(jī)時(shí)間方案需要一種真正精心打造的集群,使應(yīng)用能夠非常迅速地進(jìn)行故障切換。許多常見的集群應(yīng)用,如數(shù)據(jù)庫無法迅速地進(jìn)行故障切換,因?yàn)槌霈F(xiàn)失效后,他們必須檢查文件的完整性和重放事務(wù)日志。

  所以任何系統(tǒng)的最佳是五個(gè)9:即99.999%的可用性,它多增加了一個(gè)9,那么一年的停機(jī)時(shí)間就成了五分鐘!為了達(dá)到這個(gè)數(shù)字,你首先需要避免系統(tǒng)失效,而不是試圖從中恢復(fù)??匆豢磮D4-1,讓你有個(gè)視覺感受。

  圖4-1:9的個(gè)數(shù)表。(每年的成本是按照每小時(shí)意外停機(jī)損失10萬美元計(jì)算)。

 

  所以你認(rèn)為需要容錯(cuò)

  術(shù)語高可用性和容錯(cuò)能力在所有的時(shí)間都在交替使用,這會(huì)導(dǎo)致混亂。傳統(tǒng)的HA解決方案通常包括數(shù)據(jù)復(fù)制或旨在從失效中恢復(fù)的集群。然而,在這些情況中,系統(tǒng)失效確實(shí)發(fā)生了。為了從失效中恢復(fù),應(yīng)用要在一個(gè)健康的系統(tǒng)上重新啟動(dòng)。在大多數(shù)情況下,這需要應(yīng)用具有集群感知,這可能包含你IT人員編寫的腳本。在容錯(cuò)服務(wù)器中,每一個(gè)組件為雙份并在各自的硬件中同步地運(yùn)行。這意味著這些組件在同一個(gè)CPU時(shí)鐘周期上處理相同的指令。如果某一部分出現(xiàn)故障,它的對(duì)應(yīng)伙伴能保持正確的處理。這就是為什么一個(gè)容錯(cuò)的服務(wù)器系統(tǒng)并沒有故障切換或重新啟動(dòng)。

  容錯(cuò)也保證了所有的數(shù)據(jù)是可用的,甚至當(dāng)硬件組件故障,數(shù)據(jù)寫入了磁盤或是內(nèi)存(稱為飛行中的數(shù)據(jù))。

  不是所有的容錯(cuò)結(jié)構(gòu)都相同。一些虛擬化方案用軟件模擬容錯(cuò),但這有幾處缺點(diǎn)。首先,它本質(zhì)上創(chuàng)建了另一個(gè)影子虛擬機(jī)(VM),在一個(gè)基于軟件的環(huán)境中步調(diào)一致地處理指令。軟件仿真會(huì)引發(fā)硬件大量的開銷。這會(huì)大大地影響性能,因?yàn)镃PU不得不處理這種負(fù)載。至于對(duì)過去單一CPU內(nèi)核能力的擴(kuò)展也會(huì)有限制,肯定不適合那些高消耗的業(yè)務(wù)應(yīng)用和數(shù)據(jù)庫。

  相比之下,有些體系結(jié)構(gòu)是基于全功能的硬件容錯(cuò)。這種系統(tǒng)從一開始就作為容錯(cuò)平臺(tái)而設(shè)計(jì)。應(yīng)用程序能夠充分利用多核對(duì)稱多處理的優(yōu)勢(shì)。硬件容錯(cuò)確保了性能最大、正常運(yùn)行時(shí)間最長和數(shù)據(jù)保護(hù)最全。

  硬件容錯(cuò)等于正常運(yùn)行時(shí)間

  硬件容錯(cuò)的產(chǎn)品和服務(wù)旨在自動(dòng)防止停機(jī)和數(shù)據(jù)丟失。這種先進(jìn)的正常運(yùn)行時(shí)間使用了獨(dú)有的技術(shù),有多年保證關(guān)鍵應(yīng)用不停機(jī)運(yùn)行的經(jīng)驗(yàn)和歷史。

  今天,硬件容錯(cuò)的客戶使用即插即用功能確保正常運(yùn)行時(shí)間而獲益,實(shí)現(xiàn)了物理服務(wù)器、虛擬服務(wù)器或云計(jì)算(見圖4-2)的無后顧之憂。

  圖 4-2: 確保正常運(yùn)行時(shí)間

 

  這些集成的正常運(yùn)行時(shí)間技術(shù)嵌入到每一臺(tái)容錯(cuò)服務(wù)器產(chǎn)品和服務(wù)中,保證了在所有時(shí)間上的正常運(yùn)行時(shí)間:

  ● 彈性容錯(cuò)服務(wù)器硬件:雙重步調(diào)一致的硬件能承受會(huì)導(dǎo)致其他服務(wù)器崩潰的故障。

  ● 自動(dòng)化正常運(yùn)行時(shí)間層:預(yù)測技術(shù)持續(xù)監(jiān)視上百個(gè)系統(tǒng)組件和傳感器,自動(dòng)識(shí)別、隔離、處理和報(bào)告問題–在它們會(huì)導(dǎo)致停機(jī)或數(shù)據(jù)丟失之前。

  ● 主動(dòng)可用性監(jiān)控和管理:硬件容錯(cuò)正常運(yùn)行時(shí)間的專家在一個(gè)安全的全球網(wǎng)絡(luò)上遠(yuǎn)程監(jiān)視系統(tǒng)。利用由自動(dòng)化正常運(yùn)行時(shí)間層提供的信息,這些專家可提供24/7遠(yuǎn)程診斷并修復(fù)復(fù)雜的問題。

  5.服務(wù)是容錯(cuò)的關(guān)鍵

  無論怎樣精心設(shè)計(jì)組件,偶爾的失敗在所難免。幾乎每個(gè)IT人都明白這一點(diǎn),但真正的衡量標(biāo)尺是你如何處理它。硬件容錯(cuò)防止停機(jī)的第一道防線是嵌入到每個(gè)系統(tǒng)的組件怎么做。彈性服務(wù)器可以跨過許多錯(cuò)誤。如果某個(gè)部件發(fā)生故障時(shí),系統(tǒng)能繼續(xù)運(yùn)行,并自動(dòng)“告知家里”,報(bào)告問題并要求更換組件。

  跟著太陽轉(zhuǎn)7/24/365

  在清醒的時(shí)候,對(duì)大多數(shù)人來說都是最好的時(shí)間。隨著新的虛擬化主機(jī)上運(yùn)行多個(gè)關(guān)鍵業(yè)務(wù)VM,你可不能高枕無憂了。

  但是,如果你需要一種良好踏實(shí)的睡眠,則需要找到一個(gè)容錯(cuò)的服務(wù)器。有了硬件容錯(cuò)的服務(wù)器系統(tǒng),你就可以安穩(wěn)入眠了。在7/24/365中,這些服務(wù)器被一個(gè)安全的全球主動(dòng)服務(wù)網(wǎng)絡(luò)所監(jiān)視。

 

  利用自動(dòng)化正常運(yùn)行時(shí)間層提供的信息,硬件容錯(cuò)服務(wù)專家?guī)缀跄軌蚪鉀Q所有的問題,使你的系統(tǒng)保持連續(xù)正常地運(yùn)行。不需要等待維修技術(shù)人員的到達(dá),能讓你的業(yè)務(wù)返回正常。

  在故障之前就修復(fù)

  盡管系統(tǒng)有時(shí)可能像電腦故障產(chǎn)生黑屏,在發(fā)生這種情況以前,通常都會(huì)有跡象指示。諸如像組件的溫度、風(fēng)扇的轉(zhuǎn)速和硬盤驅(qū)動(dòng)器的錯(cuò)誤等,所有這些都預(yù)示著失效要發(fā)生。關(guān)鍵是要引起注意并跟蹤這些指標(biāo),然后把它們聚集在一起。大多數(shù)人都不是很擅長于此,因?yàn)檫@需要大量的細(xì)節(jié)工作。一個(gè)CPU中1度的溫差似乎不是一個(gè)問題-- 如果環(huán)境溫度可以接受的話,系統(tǒng)不會(huì)負(fù)擔(dān)過重;但如果CPU溫度攀升,有可能一個(gè)問題正在醞釀。每個(gè)硬件冗錯(cuò)服務(wù)器有一個(gè)內(nèi)置的自動(dòng)正常運(yùn)行時(shí)間層,充當(dāng)防御停機(jī)的第一道防線。它跟蹤和提醒你團(tuán)隊(duì)可能被忽略的多個(gè)重要細(xì)節(jié)。

  自動(dòng)化正常運(yùn)行時(shí)間層不斷監(jiān)視500多個(gè)系統(tǒng)組件和傳感器,識(shí)別、處理和報(bào)告故障–在它們影響你的業(yè)務(wù)應(yīng)用之前。這就像有一個(gè)專門的技術(shù)人員監(jiān)視服務(wù)器。這種虛擬技術(shù)人員永遠(yuǎn)不會(huì)疲倦,永不懈怠,始終著眼于大局,提供根本原因并分析數(shù)據(jù)。

 

  告知家里

  即使是最熟練的技術(shù)人員每過一段時(shí)間也會(huì)達(dá)到其技術(shù)的極限,這時(shí)最好尋求幫助。就像與人交往,尋求幫助是一種技能和成熟的標(biāo)志,而不是弱點(diǎn)。尋求一臺(tái)服務(wù)器幫助,要比找到設(shè)計(jì)它的人員會(huì)更好。這就是為什么硬件容錯(cuò)服務(wù)器會(huì)自動(dòng)“告知家里”,到客戶服務(wù)中心(CAC)去報(bào)告硬件和軟件問題。所以當(dāng)糟糕的事情發(fā)生時(shí),信息立即發(fā)送到可以修復(fù)它的人。即使一個(gè)組件發(fā)生故障,一個(gè)硬件容錯(cuò)服務(wù)器系統(tǒng)還能繼續(xù)運(yùn)行,且不會(huì)降低性能、數(shù)據(jù)丟失或即使有最微不足道的停機(jī)時(shí)間。

  所有部分做成了一個(gè)容錯(cuò)的系統(tǒng)

  一個(gè)關(guān)于容錯(cuò)系統(tǒng)的最好和最壞的事情就是:在一個(gè)組件故障后,系統(tǒng)保持工作并且沒有人知道。這讓客戶很開心,但即使沒有引起你的足夠關(guān)注,硬件容錯(cuò)服務(wù)器也會(huì)通知你。這就是為什么這種全功能硬件容錯(cuò)服務(wù)器的功能能夠超過商用服務(wù)器和服務(wù)器集群。

  硬件容錯(cuò)架構(gòu)在軟件故障和單項(xiàng)硬件組件失效時(shí)保護(hù)了組織。雖然冗余是一個(gè)方面,還有更多的容錯(cuò)工作,而不僅僅是硬件設(shè)計(jì)。它包括硬件、軟件和服務(wù)技術(shù)的協(xié)同工作,防止停機(jī)和數(shù)據(jù)丟失。

  如果用戶是那些需要馬上入睡的人,使用了硬件容錯(cuò)服務(wù)器系統(tǒng),用戶不需要改變自己的職業(yè)生涯,在一個(gè)全功能的容錯(cuò)服務(wù)器上虛擬化關(guān)鍵業(yè)務(wù)應(yīng)用和數(shù)據(jù)庫,對(duì)用戶和組織機(jī)構(gòu)都是一件幸事!

標(biāo)簽:羅克韋爾自動(dòng)化 硬件容錯(cuò) 我要反饋 
2024世界人工智能大會(huì)專題
即刻點(diǎn)擊并下載ABB資料,好禮贏不停~
優(yōu)傲機(jī)器人下載中心
西克
2024全景工博會(huì)
專題報(bào)道