面試遊戲公司運維工程師的經驗分享----未完待續

很久沒更新博文了,不管心態仍是生活,都變得有些懶散,呵呵,,發下牢騷,如下正文:

生活總要有點激情,前幾天在獵聘網站刷新了下簡歷,有幾個獵頭聯繫了豪鷲,我挑了其中一家遊戲公司過去面試,面試過程1個半小時左右,已經變成運維老鹹菜的豪鷲分享下這次的面試經歷吧,歡迎網友留言探討。。python

面試準備:
git

面試通過:
約了14:30面試,提早5分鐘到達戰場,因會議室都有人在用,因此在前臺沙發等了近25分鐘。。web

一輪面:運維總監面試
一、自我介紹
這個問題99.99%都會遇到,因此在面試以前,有必要本身先根據本身簡歷內容梳理一下,這個問題對面試官佔有比較高的印象分,豪鷲是按照這樣來回答:
a、目前就任哪一個行業哪家公司什麼職位,具體的工做內容;
b、在現就任的公司以前,在哪一個行業哪家公司什麼職位,具體的工做內容;
c、而後對於xx行業,好比遊戲行業的運維,也能夠說一些本身的理解和見解;
固然,這些都是豪鷲本身的思路,僅供參考。面試

好比豪鷲的回答是:
目前我就任於xxx技術有限公司任職Linux系統工程師,是一家資訊行業的人工智能公司,那我負責的具體工做主要是:redis

(1)、負責服務器的維護、監控、系統環境部署,日誌收集分析,故障排除等;
(2)、與開發共同設計並實施服務器的高可用架構,制定並實施相關運維技術和場景應急方案,確保服務高效、穩定可用;
(3)、代碼更新上線,服務器擴容方案、故障分析與處理,Nginx負載均衡,數據庫高可用方案設計及架構升級,saltstack運維自動化工具等;
在這以前也待過一家創業型的電商公司,也是服務器系統運維方面的工做。
在這兩家公司,作過幾個大的架構優化,好比:MySQL的高可用架構MHA,Redis哨兵模式,MongoDB副本集,ES集羣,Nginx負載均衡等。
代碼上線更新的話,不一樣公司用不一樣的解決方案,電商公司用的是shell+rsync,預發佈環境代碼從svn拉取,線上代碼從預發佈環境直接同步過去。
當前就任的這家公司,用的是gitlab+jenkins+shell/python頁面+saltstack的批量部署。
對於項目運維經驗,app,網站,後臺都有一些運維經驗,對於遊戲行業的運維,我沒有這方面的運維經驗,但很多同窗都是在遊戲行業裏面作運維的,因此有時候或多或少也會作一些運維方面的交流,
那遊戲行業早期的架構也就是LNMP或LAMP,開服,合服,停服等操做都使用shell腳本維護,發展到最近3年左右,慢慢地有了自動化運維管理平臺的概念,shell也慢慢過渡到以python爲主的技術,對於像貴公司這種作遊戲研發和平臺維護的,可能大多數都是用python來作運維平臺,經過運維來維護和更新上線等。shell

注意:我以爲最重要的是沒關係張,說重點,以及即使是沒有作過遊戲運維,但起碼要讓面試官知道你是有準備這方面的東西。工做內容我以爲只說最近兩家公司的工做內容就好了,以上介紹下來,大概花3~4分鐘左右,不長不短。數據庫

二、說一下MHA實現的原理和過程,而且MHA高可用架構有什麼缺點?
MHA是一套優秀的做爲MySQL高可用性環境下故障切換和主從提高的高可用軟件,目前來講是一個相對來講的高可用技術方案。
在MySQL故障切換過程當中,MHA能作到在30秒以內自動完成數據庫的故障切換操做,而且在進行故障切換的過程當中,MHA能在最大程度上保證數據的一致性,以達到真正意義上的高可用。
MHA主要由兩部分組成:管理節點和數據節點。管理節點能夠單獨部署在一臺獨立的機器上管理多個master-slave集羣,也能夠部署在一臺slave節點上。數據節點運行在每臺MySQL服務器上,管理節點會定時探測集羣中的master節點,當master出現故障時,它能夠自動將最新數據的slave提高爲新的master,而後將全部其餘的slave從新指向新的master。整個故障轉移過程對應用程序徹底透明。那好比咱們如今生產環境用的MHA,就是用一主三從,其中一個從節點不參與主節點的選舉,只作備份使用,而管理節點部署在其中一個從節點上。(最好結合本身生產環境來講明,讓面試官以爲你是有過生產環境部署及維護的經驗)瀏覽器

至於MHA實現原理,可參考如下:
(1)從宕機崩潰的master保存二進制日誌事件(binlog events);
(2)識別含有最新更新的slave;
(3)應用差別的中繼日誌(relay log)到其餘的slave;
(4)應用從master保存的二進制日誌事件(binlog events);
(5)提高一個slave爲新的master;
(6)使其餘的slave鏈接新的master進行復制;緩存

MHA缺點:(豪鷲說了4個,也不知對錯,歡迎補充)
(1)須要全部機器基於SSH免認證配置,存在必定的安全隱患。
(2)管理節點的監控進程,一旦發生一次主從切換,那麼監控進程就會掛掉,須要從新啓動,不過這個能夠經過結合腳原本檢查自啓。
(3)切換過程仍是會須要一小段秒級的切換時間,並不能真正嚴格意義上實現無縫切換。
(4)管理節點只對主庫進行監控,不過這個也能夠經過腳本對其餘從節點的狀態進行監控。安全

三、用戶投訴說網站訪問不了或訪問慢,怎麼排查問題?
這題目在生產也是常常遇到過,因此相對來講,仍是不難回答,最好是回答排查思路以及解決方案,如下僅供參考,這道題目回答得仍是比較細的
首先先肯定是訪問全部網站都慢仍是隻是單單你負責的網站慢。固然這句話很明顯就是廢話,既然問到這了,確定指的是你維護的網站了。。呵呵。。
出現訪問網站慢的緣由:
(1)若是是某個地區訪問慢,若是有cdn的話,多是那個地區的cdn節點出現問題。
(2)網站服務器出口帶寬佔滿了
(3)服務器負載大
(4)網站代碼質量問題、能夠經過瀏覽器訪問按F12查看哪些元素加載慢,或者代碼中SQL語句未優化的問題
(5)數據庫服務器瓶頸

優化辦法:
(1)CDN的問題,聯繫廠商
(2)流量帶寬問題:花錢買帶寬
(3)服務器負載問題:經過top等命令去查看佔用資源較大的進程,具體進程具體分析
(4)代碼問題:這個就須要跟開發協商處理
(5)數據庫瓶頸:建立索引,分庫分表,讀寫分離
(6)總體架構優化:水平擴容,添加負載服務器,使用緩存服務器(如redis等),集羣高可用等

四、要統計訪問網站訪問量的前10個IP地址,具體怎麼實現?
這個能夠用shell或者python結合web服務器日誌去統計,這個網上答案一大把,對於運維老鹹菜的大夥們也應該不是問題。(用awk結合sort和uniq去實現)

五、在這麼多年的運維工做中,給你印象最深的是遇到哪一個難題,怎麼解決的,你在解決問題中起到什麼角色?
六、說下你以前待過兩家公司的架構?
七、代碼更新上線的流程是怎樣的?
八、若是想將業務從阿里雲遷移至騰訊雲,你的方案是怎樣的?
九、你對本身的職業規劃是怎樣的?
十、打算跳槽的緣由?
十、有什麼問題要問的嗎?
A.公司的運維團隊是怎樣分工的?
B.若是我來公司了,個人工做內容?
……

二輪面:HR面試一、自我介紹二、離職的緣由?三、打算跳槽的緣由?四、已經提離職了仍是觀望,最快能夠何時到崗?五、目前薪酬跟薪酬的要求?……雜七雜八扯扯蛋

相關文章
相關標籤/搜索