siemens x
嵌入式系統(tǒng)

關(guān)鍵應(yīng)用發(fā)生故障究竟會造成多大的損失?

2025China.cn   2014年06月10日

  了解服務(wù)器發(fā)生故障和關(guān)鍵系統(tǒng)停止工作導(dǎo)致的停機時間對公司的影響程度至關(guān)重要。本文將為大家介紹六種停機成本,以及四種用于防止關(guān)鍵應(yīng)用停機并對這些應(yīng)用進行管理的方案。

  本文改編自綜合性白皮書《關(guān)鍵應(yīng)用故障的成本》。

  服務(wù)器發(fā)生故障時,很多(即便不是全部)關(guān)鍵應(yīng)用都會不可用,停機成本每分鐘都在增加。您知道服務(wù)器停機究竟會給您帶來多大損失嗎?

  大多數(shù)工業(yè)企業(yè)的領(lǐng)導(dǎo)都不知道。如果不知道實際損失,公司對數(shù)據(jù)中心技術(shù)和可用性保護方面進行合理投資的能力會被削弱。從根本上說,高可用性取決于企業(yè)對于計算機系統(tǒng)對該企業(yè)的價值認知以及基于這一認知做出的商業(yè)決策。

  本文研究了六種停機成本和四種可以防止關(guān)鍵應(yīng)用停機的方案。

  六種停機成本

  停機成本不僅包含要照常支付給員工的工資,還包括各種直接和間接成本。您的銷售額和員工生產(chǎn)率都會下滑。客戶會失望,而您的競爭對手將從中受益。我們可以將這些成本分為以下六類:

  1. 業(yè)務(wù)成本。照常支付給員工的工資、加班費和人工成本都是停機期間的業(yè)務(wù)成本。銷售額會下滑,未來的回頭客數(shù)量也會減少。其他業(yè)務(wù)成本包含庫存下降、半成品廢棄、未能滿足相應(yīng)服務(wù)等級協(xié)議的要求而招致的潛在法律處罰,以及因第三方要求虧損補償而引起的訴訟成本。

  2. 生產(chǎn)率成本。斷電期間,員工無法開展日常工作。生產(chǎn)率損失的慣用算法是:

  (員工平均工資 x 停產(chǎn)小時數(shù))+ 員工為彌補耽誤的工時而加班的加班費。

  3. 恢復(fù)成本。這些成本包含維修系統(tǒng)的成本、IT 員工的加班費和聘請第三方顧問或技術(shù)人員來恢復(fù)服務(wù)的費用。另外,還需考慮 IT 部門因需要集中精力恢復(fù)系統(tǒng)而無法開展其他關(guān)鍵項目時犧牲的機會成本。

  4. 客戶流失。之前的忠誠客戶將失去信心,轉(zhuǎn)而采用競爭對手的產(chǎn)品。一旦公司被認為不可靠,您就很難改變?nèi)藗兊倪@種看法。

  5. 聲譽受損。無論公司大小,負面影響都會致其名聲嚴重受損。負面新聞標題、Twitter 上的投訴或 Facebook 上的負面帖子均會損壞名聲。行業(yè)網(wǎng)站和博客會關(guān)注目標市場,因此負面帖子會讓客戶和潛在客戶印象深刻。

  6. 股東價值影響。負面報道還會使公司股票貶值并減小公司的市值。尤其是在經(jīng)濟動蕩時期,股市會受到公司負面報道的影響。

  四種保護關(guān)鍵應(yīng)用的方案

  考慮最關(guān)鍵應(yīng)用所需的可用性等級。對于運行生產(chǎn)線的工廠應(yīng)用、CRM、企業(yè)資源規(guī)劃 (ERP)、運行業(yè)務(wù)的后臺數(shù)據(jù)庫、財務(wù)軟件和電子郵件服務(wù)器等關(guān)鍵業(yè)務(wù)應(yīng)用,服務(wù)中斷和數(shù)據(jù)丟失的代價非常大。

  您還可能擁有不允許發(fā)生停機的關(guān)鍵任務(wù)型應(yīng)用。例如:

  ? 制造執(zhí)行系統(tǒng) (MES)

  ? 安全系統(tǒng)

  ? 交易與銀行業(yè)務(wù)系統(tǒng)

  ? 支持緊急響應(yīng)操作的應(yīng)用

  ? 控制維系生命過程的應(yīng)用

  ? 軍事和民用安全應(yīng)用

  有四種可選方案可以防止停機:

  1. 標準服務(wù)器:正常運行時間達 99%?;?x86 的標準服務(wù)器通常將數(shù)據(jù)存儲在 RAID(獨立磁盤冗余陣列)存儲設(shè)備上。x86 服務(wù)器的功能因供應(yīng)商而異,支持各種操作系統(tǒng)和處理器。

  不過,標準 x86 服務(wù)器只具有基本的備份、數(shù)據(jù)復(fù)制和原位故障切換功能,這就意味著它容易受災(zāi)難性服務(wù)器故障的影響。

  標準服務(wù)器并非專為防止停機或數(shù)據(jù)丟失而設(shè)計。發(fā)生故障時,服務(wù)器將停止所有處理工作,用戶無法訪問應(yīng)用程序和信息,因此數(shù)據(jù)可能會丟失。

  標準服務(wù)器也不會為傳輸中的數(shù)據(jù)提供保護,即如果服務(wù)器發(fā)生故障,該數(shù)據(jù)也會丟失。供應(yīng)商提供的標準 x86 服務(wù)器的可用性并不高,但用戶可以選擇在初始安裝和部署后添加可用性軟件。

  2. 傳統(tǒng)的高可用性解決方案:正常運行時間達 99.9% ~99.95%。能夠快速恢復(fù)系統(tǒng)的傳統(tǒng)高可用性解決方案基于服務(wù)器群集:兩個或多個服務(wù)器以相同配置運行并與群集軟件相連,從而使兩個或所有服務(wù)器上的應(yīng)用數(shù)據(jù)能夠持續(xù)更新。

  高可用性群集中的服務(wù)器(節(jié)點)通過持續(xù)檢查“心跳”的方式彼此通信,“心跳”可用于確認群集中的其他服務(wù)器正常運行。如果服務(wù)器發(fā)生故障,群集中的其他服務(wù)器(將其指定為故障切換服務(wù)器)會自動取代故障服務(wù)器,從而將對用戶的影響降至最低。

  群集中的計算機通過局域網(wǎng) (LAN) 或廣域網(wǎng) (WAN) 相連,并通過群集軟件進行管理。故障切換群集需要通過存儲區(qū)網(wǎng)絡(luò) (SAN) 來提供對啟用故障切換功能所需數(shù)據(jù)的共享訪問。即需要專用的共享存儲或到企業(yè) SAN 的冗余連接。

  高可用性群集可延長正常運行時間,但其效能高度依賴于專業(yè) IT 人員的技術(shù)。群集的部署復(fù)雜且耗時,且需要對群集進行編程、測試和持續(xù)監(jiān)管。因此,總擁有成本 (TCO) 非常高。

  而且,高可用性群集不會消除停機。服務(wù)器發(fā)生故障時,與該服務(wù)器相連的所有用戶都會丟失連接。因此,尚未寫入數(shù)據(jù)庫的數(shù)據(jù)將丟失。

  3. 高級高可用性解決方案:正常運行時間達 99.99%。最高級高可用性解決方案是專為防止停機、數(shù)據(jù)丟失和業(yè)務(wù)中斷而設(shè)計的軟件,復(fù)雜性較低。它們具備預(yù)測功能,能在故障導(dǎo)致停機之前自動識別、報告和處理故障。

  高級高可用性軟件可與標準 x86 服務(wù)器配合使用,員工無需具備相關(guān)高級技術(shù)即可對其進行安裝和維護。

  此外,這些軟件無需 SAN,這就使系統(tǒng)更易于管理,公司的 TCO 也得以降低。高級高可用性軟件能夠配置和管理自身運行,使應(yīng)用環(huán)境的設(shè)置更為簡單、經(jīng)濟。

  高可用性群集和高級高可用性軟件之間的主要差異是:軟件會持續(xù)監(jiān)視問題,以防發(fā)生停機,而群集解決方案則專為故障發(fā)生后的恢復(fù)而設(shè)計。高可用性軟件的目的是防止發(fā)生停機,最有效的解決方案可提供 99.99% 以上的正常運行時間。即一年的意外停機時間小于一小時。

  4. 容錯解決方案:正常運行時間達 99.999%。容錯解決方案也稱為持續(xù)可用性解決方案。容錯服務(wù)器具有最高的可用性,這是因為其系統(tǒng)組件冗余消除了單點故障。即用戶永遠不會遇到服務(wù)器可用性發(fā)生中斷的情況,原因是停機已被預(yù)先制止。

  由于系統(tǒng)中存在第二組完全冗余硬件組件,可實現(xiàn)服務(wù)器的容錯功能。服務(wù)器軟件會自動同步重復(fù)的組件,同步執(zhí)行所有的處理工作,因此能始終保護“動態(tài)”數(shù)據(jù)。

  兩組 CPU、RAM、主板和電源均同時處理相同的信息,如果其中一個組件發(fā)生故障,其配套組件可取而代之,系統(tǒng)保持正常運行。

  容錯服務(wù)器還具備內(nèi)置的故障安全軟件技術(shù),該技術(shù)能在系統(tǒng)問題導(dǎo)致停機之前檢測、隔離和糾正這些問題。

  也就是說,操作系統(tǒng)、中間設(shè)備和應(yīng)用軟件不會發(fā)生錯誤。內(nèi)存數(shù)據(jù)也得到持續(xù)保護和維護。

(轉(zhuǎn)載)

標簽:羅克韋爾自動化 服務(wù)器 我要反饋 
2024世界人工智能大會專題
即刻點擊并下載ABB資料,好禮贏不停~
優(yōu)傲機器人下載中心
西克
2024全景工博會
專題報道