朋友們調侃說,運維是個把腦殼別在褲腰帶上的活,更有人說,運維是個把腦殼別在他人褲腰帶上的活,苦勞沒人認,有鍋就有得背!數據庫
測試的同窗說,「吃瓜羣衆很難感知運維背後的付出,卻是出了事情更能體現咱們的專業性。」小樣兒,你這是尚未掉坑裏過。安全
因此,最好就是減小鍋的出現。架構
可是,鍋來了,你們就得背,甭管你是運維、產品、測試仍是開發,總得有我的出來走一走,對吧?運維
今天咱們就來談談運維DBA怎樣少背鍋。性能
運維DBA的形勢是很惡劣,但再惡劣也比不過當年紅軍過草地。紅軍當年靠三大紀律八項注意度過了難關,若運維DBA認真執行,也能度過背鍋難關。測試
運維DBA的四大紀律ui
1、一切行動聽指揮blog
甭管你是團隊,仍是團伙,要求都是同樣的,一切行動聽指揮!聽誰的指揮?聽運維經理、運維總監、CTO、CEO的指揮。索引
當年墨子當鉅子的時候,手下180人,訓練有素,同心同德,「赴火蹈刃,死不還踵」。這樣的團隊來搞運維,就具有了基本要求。ci
運維團隊裏,最忌諱的是具備三腳貓功夫、蔑視前輩經驗、心浮氣躁的人,遇到這種人Team Leader要及時校訂甚至剔除,不然這就是你背鍋的最大來源。我被坑得比較慘的幾回,都是由於團隊裏有這樣的人,想動手的時候不夠堅定,最後禍起蕭牆,只能弓着腰給客戶和領導死命的批評。這叫什麼,一顆老鼠屎壞了一鍋湯。
因此,選擇運維成員時,要選那種踏實、機敏、上進、溝通能力強的年輕人,用心培養,每每事半功倍。
2、兩條紅線不能犯
所謂紅線,就是天條。第一個是按指揮再行動,實際上是活的,多是要請示和彙報的。這第二條是死的,就像高壓線同樣,碰到就完蛋了。
全部變動要作到:凡變動必有方案,凡方案必通過評審方可執行,凡執行必嚴格遵循方案,重大變動須要有人覈實。
這一條實際上是爲了規避誤操做,誤操做就是人爲故障。人爲故障在全部故障中的佔比一直是很高的。
全部影響到業務的故障,無論是硬件故障、軟件故障仍是人爲故障,必須第一時間通知到部門經理。
這一條是爲了規避,技術人愛鑽牛角尖,看見故障鑽進去就出不來,貽誤戰機,把快速恢復業務的大好時機給浪費了。
3、假日前容量規劃
記得某一年有一次團隊Outing,集合時某DBA睡眼惺忪地說半夜3點被告警搞起來了。這還不算,他在玩密室逃脫的時候,又接到機房告警電話,某業務表空間使用率超過85%嚴重告警了。是否是亮瞎了?
要想輕輕鬆鬆過節日,或者出去玩,除了作好備份以外,最重要的是作好容量規劃。最基本的表空間、文件系統空間、歷史告警等等基本狀況橫掃一遍,起碼要能安全等到你休假回來。
對於一些特別的電商系統,節假日可能正是高峯期,那就不只僅是空間這點事了,還要作好性能預測和解決方案預案。
4、備份恢復年年作
備份要作,恢復更要作。若是你是管理者,千萬必要覺得你的DBA必定會幫你作了。
不驚訝,真實案例的脫敏數據:
若是是企業缺乏相應備份設備或軟件致使的,DBA有義務督促領導購置恢復演練所需的軟硬件設備。由於一旦出現意外,DBA的直接領導每每也擔不了這個責任,畢竟數據都保護不了,用戶還怎麼相信你這個企業,不論你是央企仍是國企。
運維DBA的九項注意
三大紀律是規矩-Rules,八項注意是指導原則-Guidance。
作運維的人,不能總說這個咱們沒想到,哎呀,沒想到這也不行。這是爬雪山,過草地,不注意就陷進去了,哪裏會留時間給你瞎BB?
1、對生產環境心懷敬畏
你也許沒聽過「一個tnsping幹翻6臺P595」,你也許沒聽過「一個cp命令讓營業系統中止使用30分鐘」,你也許沒聽過「建一個索引讓全部覈保業務不能用了」,你也許沒聽過「我原本是要shutdown個人虛擬機的,沒想關生產庫」… …
你沒聽過的事情不少,你沒幹過的事情更多,由於你還年輕。
可是必定要對生產環境心懷敬畏。
全部操做命令不是網上搜來就能夠用的,你要儘量搞清楚這個命令的反作用,這個命令下去最壞的可能,多是什麼?不懂的就虛心求教,DBAplus社羣這麼多大牛,實在很差意思,就先砸個大紅包過去再問。
2、保持24小時開機
作運維的沒有完全休假之說,不要覺得你休假了就關機大吉了,那離你關門大吉也不遠了。嗯,因此有些公司把這條也列爲紀律之一。
我曾遇到過這樣一個狀況,某個DBA請假了,恰好有個環境的密碼只有他知道,而這個環境如今出了點問題。可想而知,當時人是多麼着急? 嗯,那個DBA休假回來就長時間離開現場了。
3、多請應用的人嘮嘮嗑
徹底不懂業務的DBA不是一個合格的架構師。
要去懂業務、懂應用、懂服務,就必定要跟應用的人嘮嗑、吃飯、抽菸,平時尊重人家,人家願意跟你說,你就愈來愈熟悉業務。慢慢的,你就能夠爲推進業務採用更合適的架構方案。
4、不要在上班時間作普通變動
什麼叫普通變動?就是你原本能夠提早一天作的變動。
好比擴表空間、增長用戶權限、建立索引……並不是是爲了解決緊急故障而致使的變動。
提早作好變動規劃,儘可能爭取每次免考覈時作完全部重要的變動。
5、按期作好數據庫檢查
數據庫沒有發生故障,不表明是DBA作得好,而是故障本身尚未發生,不是不報,實時候未到。
因此,肯定好檢查規則,按期作好數據庫檢查,並進行整改。涉及到其它配合方的整改必定要郵件抄送,並電話確認。
6、數據庫部署要給予最小化權限
安裝必要的最少組件,賦予必要的最小權限,是主動避坑的有效手段。不少數據恢復,操做問題,若是可以從權限上把把關,後面就能省不少事情。
7、全部的保障手段,都要去驗證其持續可行性
部署了高可用系統,上線前要作高可用切換測試。
部署了容災系統,要作按期容災演練。
部署了應急系統,要作按期應急演練。
作了數據庫備份,要作按期數據庫恢復測試。
提及來容易,作起來難。全國90%的系統沒有作到這一點。因此你纔會常常聽到異常恢復的案例。特別是哪些用存儲容災,或者用OGG應急的。不是技術自己不行,而是管理不行。
8、絕盡全力推行自動化運維
在看到這條以前,你也許內心一直在暗暗的罵道,都什麼時代了,還這麼古板。
其實無論你是否已經開始了自動化運維,前面的每一條都值得你好好去作好,對你有益無害。
可是,去作自動化運維,是運維DBA繞不開的路徑。就像從昆明到上海,最開始是隻能靠馬幫,後來逐漸通了高速公路,如今開始滬昆高鐵了同樣。
這個自動化運維怎麼作?徹底靠本身重複造輪子顯然不徹底靠譜。若是你不是BAT,也不是京東新美大餓了麼,最好的方式,是找專業運維的公司研發的自動化運維平臺,是騾子是馬拿出來遛兩下,你就喜歡上了。
9、起步始於交流,收穫源於分享
作過講師的人,都會有這樣一個共識,就是講完東西,本身其實比聽課的「學生」收穫更大。這一點互聯網公司作得很是好,無論是BAT仍是新的巨頭,都紛紛成立技術學院,領銜的也每每是業界大佬,把企業內部的技術分享組織得有聲有色。
做爲傳統企業的DBA來講,一家企業每每沒有這麼個學院,可是互聯網上的平臺不少,好比DBAplus社羣,甚至還有其餘一些社羣都提供這樣的機會。
爲何咱們團隊工做一年的新人,能夠擁有其餘公司工做四五年DBA所具備的能力,除了複雜的硬件環境外,每個月的分享也功不可沒。
運維沒有盡頭,注意事項也沒有盡頭,你有更好的建議,不妨說說。
出自:mp.weixin.qq.com/s?__biz=MzAwMjkyMjEwNg==&mid=2247484649&idx=2&sn=44baa75eba42f71cf4605c5a4848e59c&chksm=9ac247fcadb5ceead9075e304aa0b2681edca4bac609f770be7c72d38764b1bd221f7f5a3275&mpshare=1&scene=23&srcid=0315KfXPgyljIcxBMltdEy4o#rd