運維是作什麼的？史上最全互聯網Linux工做規劃！十分鐘找到linux運維工程師職業方向！

時間 2019-12-14

標籤什麼史上互聯網 linux 規劃十分 10分找到工程師職業方向欄目 Linux 简体版

原文原文鏈接

首先祝賀你選擇學習Linux，你可能即將踏上Linux的工做之旅，出發以前，讓我帶你來看一看關於Linux和Linux運維的一切。python

Linux因其高效率、易於裁剪、應用廣等優點，成爲了當今中高端服務器的主要操做系統，而且處於一個不可替代的地位。Linux可安裝在各類計算機硬件設備中，好比手機、平板電腦、路由器、視頻遊戲控制檯、臺式計算機、大型機和超級計算機。隨着Linux在中國市場迅猛發展，國內Linux人才缺口逐漸凸顯。Linux人才招聘也成了當前最熱門的招聘之一。mysql

首先linux是一個很是很是大的概念。想所有吃透是不可能的。理想的說，搞懂linux，就能夠作全部工做。我的更傾向於說想作什麼樣工做，須要學linux的哪部分。linux

按我的經驗介紹下常見的linux有哪些領域，並對應到什麼工做。
1）linux應用。這部分嚴格來講不能算是linux，只是跑在linux上的應用，好比web，網絡，IT等，職業包括系統研發，後臺開發，服務器性能優化，運維等；android

2）linux定製。這部分涉及linux版本的用戶包較多，內核會有一些涉及，主要各類商業linux的訂製，服務等。好比redhat之類，很多是外國公司，國內大多招現場支持等。

3）linux內核開發。這部分主要是linux內核驅動的開發。幾乎所有是編程工做。主要是芯片公司，以及使用芯片的產品開發公司。前者如intel，marvell，後者如中興華爲。

4）android衍生品。由於android包括慢慢火爆的tizen都用的linux內核，因此理由同3。因此手機芯片公司和手機開發公司也是linux開發者的僱主之一。好比高通，TI等；

1、Linux運維的主要工做內容

Linux運維做爲衆多工做中需求人數最多，薪資待遇最高的崗位，本文重點介紹Linux運維的職業，本文內容由專門研究Linux運維學習和職業發展的機構馬哥教育和愛好者們聯合撰寫。

互聯網Linux運維工做，以服務爲中心，以穩定、安全、高效爲三個基本點，確保公司的互聯網業務可以7×24小時爲用戶提供高質量的服務。運維的職責覆蓋了產品從設計到發佈、運行維護、變動升級及至下線的生命週期。ios

產品的整個生命週期裏運維的職責重要而普遍，但運維工程師們的職責不只限於這部分工做，還須要總結工做中遇到的問題，抽取出相關的技術方向、研發相關的工具和平臺以支持/優化業務的發展並提升運維的效率，相關技術工做主要包括：

服務監控技術：包括監控平臺的研發、應用，服務監控準確性、實時性、全面性的保障
服務故障管理：包括服務的故障預案設計，預案的自動化執行，故障的總結並反饋到產品/系統的設計層面進行優化以提升產品的穩定性
服務容量管理：測量服務的容量，規劃服務的機房建設，擴容、遷移等工做
服務性能優化：從各個方向，包括網絡優化、操做系統優化、應用優化、客戶端優化等，提升服務的性能和響應速度，改善用戶體驗
服務全局流量調度：接入服務的流量，根據容量和服務狀態在各個機房間分配流量
服務任務調度：服務的各類定時/非定時任務的調度觸發及狀態監控
服務安全保障：包括服務的訪問安全、防攻擊、權限控制等
數據傳輸技術：包括p2p等各種傳輸技術的研發應用，也遠距離大數據傳輸等問題的解決
服務自動發佈部署：部署平臺/工具的研發，及平臺/工具的使用，作到安全、高效的發佈服務
服務集羣管理：包括服務的服務器管理、大規模集羣管理等
服務成本優化：儘量下降服務運行使用的資源，下降服務運行成本
數據庫管理（DBA）：經過設計、開發和管理高性能數據庫集羣，使數據庫服務更穩定、更高效、更易於管理。
平臺化的開發：類docker等平臺的開發管理，及服務接入技術
分佈式存儲平臺的開發優化與接入

等等，凡是關係到服務質量、效率、成本、安全等方面的工做，及涉及到的技術、組件、工具、平臺都在運維的技術範疇裏。作好每個技術方向、完成相應的組件、工具、平臺研發都能對履行運維職責起到積極的做用，對業務的發展發揮關鍵影響。

2、Linux運維工做分類

運維的工做方向比較多，隨着業務規模的不斷髮展，越成熟的互聯網公司，運維崗位會劃分得越細。當前不少大型的互聯網公司，在初創時期只有系統運維，隨着模、服務質量的要求，也逐漸進行了工做細分。通常狀況下運維團隊的工做分類（見圖1-1）和職責以下。nginx

圖1-1 運維團隊的工做分類web

2.1-應用運維（SRE）：應用運維負責線上服務的變動、服務狀態監控、服務容災和數據備份等工做，對服務進行例行排查、故障應急處理等工做，工做職責以下：設計評審、服務管理、資源管理、例行檢查、預案管理、數據備份。redis

2.2-系統運維(SYS)：負責IDC、網絡、CDN和基礎服務的建設（LVS、NTP、DNS）；負責資產管理，服務器選型、交付和維修，工做職責以下：IDC數據中心建設、網絡建設、LVS負載均衡和SNAT建設、CDN規劃和建設、服務器選型、交付和維護、內核選型和OS相關維護工做、資產管理、基礎服務建設。sql

2.3-數據庫運維（DBA）:數據庫運維負責數據存儲方案設計、數據庫表設計、索引設計和SQL優化，對數據庫進行變動、監控、備份、高可用設計等工做，詳細的工做內容以下：設計評審、容量規劃、數據備份與災備、數據庫監控、數據庫安全、數據庫高可用和性能優化、自動化系統建設、運維研發、運維平臺、監控系統、自動化部署系統。docker

2.4-運維安全（SEC）：運維安全負責網絡、系統和業務等方面的安全加固工做，進行常規的安全掃描、滲透測試，進行安全工具和系統研發以及安全事件應急處理，工做內容以下：安全制度創建、安全培訓、風險評估、安全建設、安全合規、應急響應。

3、Linux運維平常使用軟件和技能

運維工程師使用的運維平臺和工具包括：

Web服務器：apache、tomcat、nginx、lighttpd
監控：nagios、ganglia、cacti、zabbix
自動部署：ansible、sshpt、salt
配置管理：puppet、cfengine
負載均衡：lvs、haproxy、nginx
傳輸工具：scribe、flume
備份工具：rsync、wget
數據庫：mysql、oracle、sqlserver
分佈式平臺：hdfs、mapreduce、spark、storm、hive
分佈式數據庫：hbase、cassandra、redis、MongoDB
容器：lxc、docker
虛擬化：openstack、xen、kvm
安全：kerberos、selinux、acl、iptables
問題追查：netstat、top、tcpdump、last

運維以技術爲基礎，經過技術保障產品提供更高質量的服務。運維工做的職責及在業務中的位置決定了運維工程師須要具有更加廣博的知識和深刻的技術能力：

紮實的計算機基礎知識，包括計算機系統架構，操做系統，網絡技術等；
通用應用方面須要瞭解操做系統、網絡、安全，存儲，CDN，DB等，知道其相關原理；
編程能力，小到運維工具的開發大到大型運維繫統/平臺的開發都須要有良好的編程能力；
數據分析能力：可以整理、分析系統運行的各項數據，從中發現問題及找到解決方向；
豐富的系統知識，包括系統工具、典型系統架構、常見的平臺選型等；
綜合利用工具和平臺的能力；

4、Linux運維工做發展過程

早期的運維團隊在人員較少的狀況下，主要是進行數據中心建設、基礎網絡建設、服務器採購和服務器安裝交付工做。幾乎不多涉及線上服務的變動、監控、管理等工做。這個時候的運維團隊更多的屬於基礎建設的角色，提供一個簡單、可用的網絡環境和系統環境便可。

隨着業務產品的逐漸成熟，對於服務質量方面就有了更高的要求。這個時候的運維團隊還會承擔一些服務器監控的工做，同時會負責LVS、Nginx等與業務邏輯無關的4/7層運維工做。這個時候服務變動更多的是逐臺的手工操做，或者有一些簡單批量腳本的出現。監控的焦點更多的在服務器狀態和資源使用狀況上，對服務應用狀態的監控幾乎不多，監控更多的使用各類開源系統如Nagios、Cacti等。

因爲業務規模和複雜度的持續增長，運維團隊會逐漸劃分爲應用運維和系統運維兩大塊。應用運維開始接手線上業務，逐步開展服務監控梳理、數據備份以及服務變動的工做。隨着對服務的深刻，應用運維工程師有能力開始對服務進行一些簡單的優化。同時，爲了應對天天大量的服務變動，咱們也開始編寫各種運維工具，針對某些特定的服務可以很方便的批量變動。隨着業務規模的增大，基礎設施因爲容量規劃不足或抵禦風險能力較弱致使的故障也愈來愈多，迫使運維人員開始將更多的精力投入到多數據中心容災、預案管理的方向上。

業務規模達到必定程度後，開源的監控系統在性能和功能方面，已經沒法知足業務需求；大量的服務變動、複雜的服務關係，之前靠人工記錄、工具變動的方式無論在效率仍是準確性方面也都沒法知足業務需求；在安全方面也出現了各類大大小小的事件，迫使咱們投入更多的精力在安全防護上。逐漸的，運維團隊造成以前提到的5個大的工做分類，每一個分類都須要有專精的人才。這個時候系統運維更專一於基礎設施的建設和運維，提供穩定、高效的網絡環境，交付服務器等資源給應用運維工程師。應用運維更專一於服務運行狀態和效率。數據庫運維屬於應用運維工做的細化，更專一於數據庫領域的自動化、性能優化和安全防護。運維研發和運維安全提供各種平臺、工具，進一步提高運維工程師的工做效率，使業務服務運行得更加穩定、高效和安全。

咱們將運維發展過程劃分爲4個階段，如圖1-2所示。

圖1-2 運維發展過程

手工管理階段：業務流量不大，服務器數量相對較少，系統複雜度不高。對於平常的業務管理操做，你們更多的是逐臺登陸服務器進行手工操做，屬於各自爲戰，每一個人都有本身的操做方式，缺乏必要的操做標準、流程機制，好比業務目錄環境都是各式各樣的。

工具批量操做階段：隨着服務器規模、系統複雜度的增長，全人工的操做方式已經不能知足業務的快速發展須要。所以，運維人員逐漸開始使用批量化的操做工具，針對不一樣操做類型出現了不一樣的腳本程序。但各團隊都有本身的工具，每次操做需求發生變化時都須要調整工具。這主要是由於對於環境、操做的規範不夠，致使可程序化處理能力較弱。此時，雖然效率提高了一部分，但很快又遇到了瓶頸。操做的質量並無太多的提高，甚至可能由於批量執行而致使更大規模的問題出現。咱們開始創建大量的流程規範，好比複查機制，先上線一臺服務器觀察10分鐘後再繼續後面的操做，一次升級完成後至少要觀察20分鐘等。這些主要仍是靠人來監督和執行，但在實際過程當中執行每每不到位，反而下降了工做效率。

平臺管理階段：在這個階段，對於運維效率和誤操做率有了更高的要求，咱們決定開始建設運維平臺，經過平臺承載標準、流程，進而解放人力和提升質量。這個時候對服務的變動動做進行了抽象，造成了操做方法、服務目錄環境、服務運行方式等統一的標準，如程序的啓停接口必須包括啓動、中止、重載等。經過平臺來約束操做流程，如上面提到的上線一臺服務器觀察10分鐘。在平臺中強制設定暫停檢查點，在第一臺服務器操做完成後，須要運維人員填寫相應的檢查項，而後才能夠繼續執行後續的部署動做。

系統自調度階段：更大規模的服務數量、更復雜的服務關聯關係、各個運維平臺的林立，原有的將批量操做轉化成平臺操做的方式已經再也不適合，須要對服務變動進行更高一層的抽象。將每一臺服務器抽象成一個容器，由調度系統根據資源使用狀況，將服務調度、部署到合適的服務器上，自動化完成與周邊各個運維繫統的聯動，好比監控系統、日誌系統、備份系統等。經過自調度系統，根據服務運行狀況動態伸縮容量，可以自動化處理常見的服務故障。運維人員的工做也會前置到產品設計階段，協助研發人員改造服務使其能夠接入到自調度系統中。

在整個運維的發展過程當中，但願全部的工做都自動化起來，減小人的重複工做，下降知識傳遞的成本，使咱們的運維交付更高效、更安全，使產品運行更穩定。對於故障的處理，也但願由過後處理變成提早發現，由人工處理變成系統自動容災。

5、2018年Linux運維必須抓住的前沿技能

這是技術世界正在發生的深入變革的冰山一角，那麼問題來了? 做爲傳統的運維該如何轉型呢?

這裏給出一點小的建議: 大體須要學習下這四個部分: