昨日今日頭條宕機與網站可靠性

1月6號,像往常同樣,在工做的間隙,我打開手機上的今日頭條。點開了其中一個新聞,發現進去後頁面提示網絡不給力,請稍後重試。前兩天個人4G網絡上不去,折騰了半天正要打聯通客服咒罵,在IVR語音提示時才發現已經欠費了。但如今話費但是本月剛充的啊,況且如今連的是公司的WIFI,難道公司網絡有問題?這時通知中心彈出了其餘應用的提醒,貌似其餘應用是正常的。那麼就是被頭條的提示的忽悠了,任何錯誤提示給用戶的都是你的網絡不給力。java

果不其然,稍後其餘的新聞看到頭條的服務掛了許久的消息。git

SRE - Site Reliability Engineering, Google提出的一個概念,綜合了Google多年運維大規模服務器集羣的經驗演變出的一個職位。其目的就是爲了最大限度的保障Google服務的可靠性,其演進方向是從運維工程師向開發工程師邊界的擴展,要求運維工程師以軟件工程的思路解決大規模運維的問題,用工具而不是人力來解決不斷擴大的服務器集羣對管理的需求。github

如何保障網站可靠性,一般是在運維,基礎架構,系統管理員的範疇。關注業務開發的軟件工程師不關心這個,他們要忙着應付PD的最後期限,讓飛速發展的平臺支撐上層的業務需求。sql

在雲計算基礎設施還沒成型時,互聯網公司都會有個運維團隊負責搞各類各樣跟系統有關的活。在企業發展的不一樣階段,這隻團隊可能會忙着提採購需求給財務;評估系統容量,要多少IOPS的SSD硬盤, 多大的內存才能知足應用需求;寫各類各樣的發佈腳本,將開發提供的war包(若是是java應用)批量分發服務器的目錄上並啓動tomcat;搭LVS爲機房入口提供熱備的負載均衡設施;用keeplived提供VIP去單點,爲後端服務提供故障遷移能力;跑到機房去爲機器上架,佈設機架網線,甚至配合容災演練去拔網線測試;還要制定線上應用的發佈規範,保證成千上萬的應用能按照統一的規範發佈,秉着約定優於配置的原則,讓整個公司的人能夠不加思索的找到應用的啓動腳本,log目錄;新機器上線須要初始化系統,隨着虛擬化大潮物理機都要切分紅虛擬機才交付給開發部門;出了個緊急安全漏洞得給系統或應用打補丁;線上生產機的權限要管好,別被黑客提權出了簍子;每每可能還要客串一把網絡工程師粗排一下千奇百怪的運營商到IDC網絡丟包,緩慢問題。數據庫

以上還不是最累的,運維團隊還要爲線上故障排查負責,軟件工程師半夜只會收到本身應用的報警,運維團隊是要接受本身管理所有應用的報警的,出了問題每每開發和運維都要一塊兒排查,一個高速發展的公司都會經歷那麼一段故障頻發的苦逼日子,運維整天到晚在忙着救火。後端

因爲運維與開發部門不在一個部門,且各自關注的目標不一樣,伴隨着長期的衝突和博弈。開發只關心功能上線,運維部門關心應用穩定運行。從前,開發能夠快樂的本身登陸到線上機器上發佈代碼,scp個本地的war包過去,就跑起來了;自從xxx日出了故障致使網站宕機1小時,錯過了促銷的黃金時間後,發佈就被套上了流程的管控,層層審批,就是爲了減小發布的次數,由於理論上發的越多,越容易出問題,一個一年只發布一次的系統,基本沒什麼可能出問題。緩存

Devops理念是伴着雲計算理念出來的,在amazon的雲計算成熟後,以上說的傳統運維已經能夠經過買雲服務實現了,不用本身採購機器,買個EC2,數據庫服務也能夠直接買RDS,對象存儲用S3, Load Balancing也能夠買。開發人員自助在上面操做一下,部署上本身的應用就能夠提供服務了,買個域名將DNS直接A記錄指向服務器就好了。能夠說是中小公司的福音,互聯網創業不用考慮太多的服務器問題了,把有限的人力投入到相當重要的業務功能開發商,其餘的服務器運維工做交給專業的雲計算公司來作。tomcat

網絡視頻租賃商Netflix就是個知名的例子,其服務都運行在AWS上。因爲其多年跑在雲上的分佈式經驗,還在github上開源了很多分佈式處理的組件,回饋了社區。其遷移的路程也算長的,從2008年到2015年,7年,完成了所有應用到AWS的遷移。他們認爲AWS提供了更可靠的服務。安全

有遷入也有遷出的,著名的網絡存儲提供商Dropbox因爲嫌AWS太貴,將自家服務從新移到了自家機房運維。服務器

頗有意思不是嗎?

那麼
想體驗本身的服務被上億人使用的感受嗎?
想參與每一年雙11的技術狂歡嗎?
想了解一線大廠的分佈式技術如何抗住海量流量嗎?

阿里集團客戶體驗事業羣旨在創建更高的客戶服務標準,讓客戶在阿里享受到最「爽」的服務,讓「客戶第一」成爲阿里的百年口碑。

CRM產品技術部做爲支撐全網服務的產品技術團隊,但願經過咱們的產品、數據、技術去提高阿里集團服務幾億客戶的能力,提高全網客戶體驗。這裏是最能聽到「炮火」的地方,能夠經過咱們的努力,最直接的看到產品的改善。

在這裏能夠接觸第一手的大數據。

這是一個以用戶爲中心的多角色無邊界團隊,一個有夢想的歡樂團隊,一個能近距離感覺用戶溫度的團隊。不管你是何種角色,只要站在用戶的角度思考問題,你的意見都有機會被採納實施,去產品中落地。

關於用戶體驗的經驗和妙想會獲得重視,能夠站在集團層面,推進與解決難以落地的用戶問題。

若是你來到咱們團隊,那麼你的職責可能包括但不限於:

  1. 負責Alibaba客戶服務相關的產品研發
  2. 深刻發掘和分析業務需求,撰寫技術方案和系統設計
  3. 核心代碼編寫、指導和培訓工程師、不斷進行系統優化
  4. 參與或領導跨團隊的研發項目

崗位要求:

  1. JAVA基礎紮實,理解io、多線程、集合等基礎框架,對JVM原理有必定的瞭解;
  2. 3年及以上使用JAVA開發的經驗,對於你用過的開源框架,能瞭解到它的原理和機制;對Spring,ibatis,struts等開源框架熟悉;
  3. 熟悉分佈式系統的設計和應用,熟悉分佈式、緩存、消息等機制;能對分佈式經常使用技術進行合理應用,解決問題;
  4. 掌握多線程及高性能的設計與編碼及性能調優;有高併發應用開發經驗;
  5. 掌握Linux 操做系統和大型數據庫(Oracle、MySql);對sql優化有豐富的經驗;
  6. 學習能力強,適應能力好;具有耐心/細心的品質;
  7. 喜歡去看及嘗試最新的技術,追求編寫優雅的代碼,從技術趨勢和思路上能影響技術團隊

簡歷盡情發送到kunrong.zkr@alibaba-inc.com

相關文章
相關標籤/搜索