昀哥 20200202html
有人問爲何不能吸收2003年SARS的教訓?爲何不帶護目鏡?爲何不知道糞便裏有活性病毒?十七年前不就都知道了嗎?安全
1分佈式
並非每一個行業每一個實體都能吸收同行的經驗教訓,雖然平時咱們也都在學習借鑑別人的成功與錯誤。工具
最近的一個例子是,京東2020年1月8日的無門檻優惠券事件,與2019年1月20日拼多多無門檻優惠券事故一模一樣。性能
前者把京東自營小家電品類上到了200元無門檻券的適用區域裏,時間長達五十分鐘。後者是把一個已過時的運營活動誤操做,致使凌晨從新上線,羊毛黨徒們徹夜狂歡。學習
很遺憾,這樣的悲劇每一年可能都會來一次。測試
2url
我曾寫道:spa
整整齊齊擺放的行李箱,提醒咱們仍然是善於遺忘的愚蠢的人類。
——鄭昀,那些年咱們一塊兒犯過的錯
航空業與醫療業對錯誤的態度是迥然不一樣的。航空業更願意正視錯誤,飛行員們整體上說對自身的失誤都抱着公開和坦誠的態度,部分緣由是錯誤會致使他們本身死亡。這個行業裏有強勢並獨立的組織專門負責對空難進行調查。失敗不會被當成控訴某一位飛行員的理由,而會被視爲能讓全部飛行員、航空公司和管理者們學習進步的一次寶貴機會。設計
而醫療界相對來講,死的更可能是患者,還有論文的KPI壓力,因此行業偏保守。但SARS和本次肺炎事件都威脅到了一線醫護人員的生命安全,因此可能對行業協會有必定促進做用。
3
豐田生產體系和管理方法中有一條是人員自主化:
人員自主化是人員與機械設備的有機配合行爲。生產線上產生質量、數量、品種上的問題機械設備自動停機,並有指示顯示,而任何人發現故障問題都有權當即中止生產線,主動排除故障,解決問題。同時將質量管理溶入生產過程,變爲每個員工的自主行爲,將一切工做變爲有效勞動。
它強調一種由下而上的管理,各項做業流程的規定、實施和監督都是由現場做業人員經過相互討論、學習而造成的,而不是領導給你拍了個工做規範。這某種程度上與航空航天是相通的,若是對待錯誤的態度是開誠佈公的,那麼整個系統就能從中學習,能取得進步。
4
常常看個人文章的人都知道,在平常工做中,對於事故處理,咱們一貫聽從航天二十字訣:定位準確、機理清楚、能夠復現、措施有效、觸類旁通。
咱們堅持每錯必查、錯了又錯就整改、每錯必寫,用身體力行告訴每個新員工直面錯誤、公開技術細節、分享給全部人,久而久之,每一次事故都會變爲咱們的財富,成爲了團隊的傳承和家底。
RCA報告的標準格式爲:
背景知識(Optional)問題現象影響範圍問題緣由問題分析過程(Optional)解決辦法後續處理措施:如線上髒數據如何修復,如對用戶形成的影響如何彌補等(Optional)經驗教訓RCA類型:如代碼問題、實施問題、配置問題、設計問題、測試問題
但即便是有了RCA制度和案例庫,咱們平常工做仍然會掛一漏萬,畢竟人不是機器。那怎麼辦呢?
5
這麼辦:
第一,在專業領域裏,千萬不能讓外行領導內行!
我發現好多作管理的都不知道這一條,總以爲我作管理的能管天下萬事萬物。扯淡!
第二,投入人力物力在增加體系內功、有助傳承的長期項目上,工具化,通用化,標準化,自動化,數據化。醫療和IT以及其餘各行各業多看看《清單革命》和《黑匣子思惟》這兩本書。
在面對安全、審計、質量控制等要求時,更願意選擇用「機器(注:這是一個泛指)」解決,而不是增長流程,增長中間節點。
酷殼陳皓說過,技術債是不能欠的,要殘酷無情地還債。不少事情,一開始不會有,那麼就永遠不會有。一旦一個事情爛了,後面只能跟着一塊兒爛,爛得越多,就越沒有人敢去還債。
因此凡是被不斷重複的過程,必定要將其工具化,綁定到自動化流程之中,減小基層員工沒必要要的心智負擔。
第三,按期作災難演練。
近年來工業界有一種混沌工程(Chaos Engineering)理念,這是在分佈式系統上進行實驗的學科,目的是創建對系統抵禦生產環境中失控條件的能力以及信心,最先由Netflix及相關團隊提出。它的核心思想是,減小故障的最好方法就是讓故障常常性的發生。經過不斷重複失敗過程,持續提高系統的容錯和彈性能力。阿里巴巴對應的開源混沌工程工具名叫 ChaosBlade,就是專門作故障注入的。
好比阿里巴巴常常搞的斷網斷電演練和生產突襲。
你不能期望日常沒作過異地多活切機房,災難來臨的時候全部人能步調一致、有條不紊地切換流量和機房。
-EOF-