近年來新建的數據中心,其配電系統通常采用T3或T4級別架構設計(這已是非常高的安全等級)。然而,哪怕有盡善盡美的架構設計,萬無一失的運維保障,也難逃風火水電等自然災害、供電局檢修等其它因素帶來的市電中斷威脅。若無柴發死守這后一道防線,數據中心的運營則如履薄冰,業務的穩定運行只是鏡花水月,隨時會土崩瓦解。
柴油發電機組(簡稱柴發)是保障數據中心連續運營的后一張王牌。隨著電網質量的不斷提升,外市電的穩定性不斷提高,柴發大顯神通的機會就越來越少了。這當然是一件可喜之事,然而,從另一方面考慮,IDC運維人員缺乏柴發帶載運行,尤其是長時間帶載運行的經驗,則更容易忽視柴發這重保障。
在此,小編不得不敲響安全意識的警鐘:加固柴發這后一道城墻,不要在意外來臨時才追悔莫及!那么,如何保障柴發長時間帶載?本文即將為您介紹一些專業的方法。
一、柴發系統例行保養工作
關于柴發系統的例行維護和保養工作,此前“騰訊數據中心”已經發布了專題文章《柴油發電機維護手冊》,這里我們將重點介紹油箱、油罐的日常保養工作。
雖然柴油可以長期存儲,然而在存儲過程中會出現氧化變質、產生沉淀物、揮發等現象,因而柴油品質的保障需要重點關注。同時日用油箱、油罐的維護,也是容易被忽視的環節。
此前,行業某數據中心因供油品質差、油水分離器堵塞導致供油不足,發動機轉速不穩定,柴發輸出頻率不達標,進而導致UPS自動轉電池工作, 終釀成大禍,造成一起設備宕機事故。在故障復盤過程中發現,供油品質問題系“運維團隊忽視油箱維護,在補油時將油罐底部油渣沖起,從而堵塞油水分離器”導致。
油箱清洗過程:
在油箱清洗前放油時,我們對柴油進行取樣,從右到左分別是:前期-中期-后期,三個時間點。我們可以看到,越靠后面,油的顏色越深,甚至可以看到很多沉淀物。這些沉淀物積累到一定程度(超過出油口位置),就會對柴發運行產生安全威脅。據此,騰訊數據中心建議,至少每3年進行一次油箱或油罐的全面清理工作。
二、柴發系統日常演練及應急技能培養
全面的日常維護可以顯著提升柴發系統應急啟機帶載的成功率,但更重要的是提升一線運維人員應急響應的能力。兩者結合,方能做到成竹在胸。
1、開展日常演習演練工作
柴發系統一旦啟動,就意味著數據中心配電系統發生了緊急突發事件,整個數據中心的其它各系統的安全穩定運行也受到了威脅。而一線運維人員能否根據應急響應流程準確應對,將是決定危機是否順利解除的關鍵。
應急演練可謂是“臺上一分鐘,臺下十年功”。因為只有通過實操演練,才可驗證并優化應急流程與方案;同時,也只有通過實操演練,一線運維人員才能做到熟能生巧,臨危不亂。
2、加強運維人員應急技能培養
從一線運維的角度出發,我們要求任何一位運維人員都必須具備單兵作戰的能力。尤其是當夜間值班人員相對較少的情況下,一旦發生市電異常等突發事件,一線值班人員面臨的考驗將更加嚴峻。如果沒有提前做好一線人員的技能掃盲工作,事態將變得岌岌可危。
三、柴發系統長時間帶載經驗分享
當我們做好了柴發系統的例行維護保養,同時保證一線運維人員具備了良好的應急響應技能,是否就意味著我們可以憑借柴發這后一道防線堅守到勝利的到來呢?實際上,當市電中斷、柴發起動那一刻起,我們就應該做好打持久戰的準備,而下文中三個長時間市電中斷的案例也印證了這一點。那么關于柴發系統長時間帶載運行,我們需要關注什么呢?
1、提供良好的工作環境
保障進出風順暢,確保柴發機組散熱良好,如檢查進排風閥是否全部正常開啟、風扇是否正常運轉、是否有異物堵塞等;防止異物進入柴發機組,通常需要關閉柴發房大門,以防吸入異物;嚴格管控人員進出,避免人員誤操作觸發停機等。
2、提供持續優質的燃料
安排專人負責柴油供應,并確保供油持續性;在高液位時(建議不低于60%)對日用油箱進行補油,避免補油過程中將底部油渣沖入燃油系統;定時對日用油箱進行排渣,觀察是否有油渣或者水分等雜質。
3、開展實時健康監控
嚴密監控油箱液位,并及時補充;重點關注柴發運行及輸出參數,對于異常信息要快速反饋和應對;定時(建議每30分鐘)記錄一次柴發機組運行及輸出參數,以便分析柴發運行指標是否正常。
4、實施標準化運行流程
柴發長時間帶載過程中,可能出現運維人員交接班的情況。然而由于個人習慣或者對于操作的理解不一致,就可能造成嚴重的影響。例如,補油的時間點不一致、對高溫判斷標準的不一致(有可能錯過 佳處理時間)等等。
那么如何消除“差之毫厘謬以千里”的隱憂呢?實施標準化的運行歷程就可以有效的規避這類問題。例如,采用固定格式的表格記錄柴發運行參數,將各種有待處理的信息標準化;明確應急響應人員職責與分工,確保其工作內容清晰明了,規避運維盲點;建立統一指揮調度機制,通常由監控崗位人員按既定流程指揮各崗位人員開展應急工作,確保各崗位人員應對有序。
