企業信息化系統建設按生命週期可分爲IT規劃階段、IT建設階段和IT運維階段,其中,IT運維階段的時間最長,IT運維管理關乎着IT運維的質量、成本和速度,更關乎着IT系統的安全、連續和可用。大數據雲計算時代的來臨,使Oracle服務商須要集中精力提升運維服務核心競爭力,才能促使運維外包走向更深的發展。
1.數據安全
數據安全是第一位的,Oracle服務商的首要職責必須保證不丟數據,丟掉數據就丟掉了飯碗!
1)在人爲誤操做的時候(update,insert,delete,drop,alter),可以恢復數據到正確的狀態。主要靠備份來保證,由於複製能夠容災,卻不能夠容錯(固然延遲備份在必定程度能夠)。
2)在機房,硬件故障或者操做系統,數據庫軟件故障的時候,可以恢復數據到正確的狀態。可能用備份來恢復,也可能直接進行主庫或者從庫的切換來恢復服務。
3)不丟事務,保證已經入庫的數據可以被正確的查詢到。採用最高安全級別的數據庫軟硬件設置以及冗餘設備,目標是不丟任何1個事務,由於即便1個事務也可能形成大量金錢的損失,同時形成企業信譽的降低。
4)還要注意到須要保證主從數據庫的一致性,不然讀寫分離的狀況下其實在用戶看來仍然丟失了數據。
2.無端障(停機)時間
運維和開發不同,開發最重要的是保證必定效率的狀況下實現功能,同時程序Bug少。運維講的是提供穩定服務的時間。用術語來講就是幾個9,具體含義就是年度不可服務(不論是主動的仍是被動的)時間除以整年時間,百分比越高越好(基本可用性:2個9;較高可用性:3個9;具備故障自動回覆能力的可用性:4個9;極高可用性:5個9)。Oracle運維服務的最高境界固然就是5個9了,一年停機時間只有5分鐘,這是至關難以達到的目標,每每一個大故障就會把整年的停機時間用完。
多數狀況下,網站可用性會是 SLA (Service Level Agreement, 服務水平協議) 中的一個重要度量指標。若是是作第三方託管,須要明確第三方的運維服務能力與責任。不然,IDC 常常斷電或者斷網,即便自身作的再好也沒法保證服務時間了。
但可用性是可以持續改進的東西,運維負責人不可但願一步登天。提升可用性的一些常規策略有消除單點,部署冗餘設備等。若是要提供更高的可用性,好比 4 個 9 甚至 5 個9,就不是簡單靠硬件就能作到的事情,還須要創建自動化的工具與平臺,完善的流程制度與變動機制,7*24小時的專人值班等。
3.響應時間
響應時間是指一條查詢或者更新語句從發出請求到接收完數據的時間。由於最大響應時間的不肯定性和不可重複性,因此通常使用X%的查詢響應時間做爲指標。若是值爲95%爲10ms,意味着95%的查詢會在10ms內返回。對於OLTP查詢來講,在50ms內返回是比較理想的結果。超過200ms的查詢能夠視爲慢查詢。
4.成本
在解決了穩定和速度後,就是成本的問題了。成本的構成主要是硬件成本+軟件成本+人力成本,由於互聯網企業軟件以自主開發和開源爲主,因此其中主要是硬件和人力成本,硬件成本也包含了機房的機架,帶寬,電力成本。Oracle運維構師的使命的確不只僅是「完成」功能,若是說完成功能能夠有50種方法,那麼至少要找出相對較優的幾種方法並進行最終的選擇。所以Oracle服務商須要提升硬件的使用效率,下降人工運維成本,提升人均產出。數據庫