Linux運維常見的硬件及系統問題

時間 2019-12-05

原文原文鏈接

在Linux系統中，日誌數據主要包括三種類型：node

內核及系統日誌：這種日誌數據由系統服務rsyslog統一管理，根據其主配置文件/etc/rsyslog.conf中的設置決定將內核消息及各類系統程序消息記錄到什麼位置。shell
用戶日誌：用與記錄Linux系統用戶登陸及退出系統的相關信息，包括用戶名、登陸的終端、登陸時間、來源主機、正在使用的進程操做等。數據庫
程序日誌：有些應用程序會選擇由本身獨立管理一份日誌文件（而不是交給rsyslog服務管理），用於記錄本程序運行過程當中的各類事件消息。bootstrap

Linux系統自己和大部分服務器程序的日誌文件默認都放在目錄/var/log/下，一部分程序公用一個日誌文件，一部分程序使用單個日誌文件，而有些大型服務器程序因爲日誌文件不止一個，因此會在/var/log/目錄中創建相應的子目錄存放日誌文件。緩存

經常使用的日誌文件：安全

/var/log/messages : 記錄Linux內核消息及各類應用程序的公共日誌信息、包括啓動、1/0錯誤、網絡錯誤、程序故障等。bash
/var/log/cron : 記錄crond計劃任務產生的事件信息。服務器
/var/log/dmesg : 記錄Linux系統在引導過程當中的各類事件信息。網絡
/var/log/maillog : 記錄進入或發出系統的電子郵件活動。架構
/var/log/lastlog : 記錄每一個用戶最近的登陸事件。
/var/log/secure : 記錄用戶認證相關的安全事件信息。
/var/log/wtmp : 記錄每一個用戶登陸、註銷及系統啓動和停機事件。
/var/log/btmp : 記錄失敗的、錯誤的登陸嘗試及驗證事件。

內核及系統日誌功能主要由默認安裝rsyslog軟件包提供。rsyslog服務所使用的配置文件爲/etc/rsyslog.conf。

在Linux內核中，根據日誌消息的重要程度不一樣，將其分爲不一樣的優先級別（數字等級越小、優先級越高、消息越重要）

0 EMERG(緊急) ：會致使主機系統不可用的狀況。
1 ALERT(警告) ：必須立刻採起措施解決的問題。
2 CRIT(嚴重) ：比較嚴重的錯誤。
3 ERR(錯誤) ：運行出現錯誤。
4 WARNING(提醒) ：可能影響系統功能，須要提醒用戶的重要事件。
5 NOTICE(注意) ：不會影響正常功能，可是須要注意的事件。
6 INFO(信息) ：通常信息。
7 DEBUG(調試) ：程序或系統調試信息等。

內核及大多數系統消息都被記錄到公共日誌文件/var/log/messages中，而其餘一些程序消息被記錄到各自獨立的日誌文件中，此外日誌消息還可以記錄到特定的存儲設備中，或者直接發送給指定用戶。

對於rsyslog服務統一管理的大部分日誌文件，使用的日誌記錄格式基本上都相同。以公共日誌/var/log/messages文件的記錄格式，其中每一行表示一條日誌消息，每一條消息都均包括如下四個字段。

時間標籤：消息發出的日期和時間。
主機名：生成消息的計算機的名稱。
子系統名稱：發出消息的應用程序的名稱。
消息：消息的具體內容。

在Linux系統中，一部分應用程序並無使用rsyslog服務來管理日誌，而是由程序本身維護日誌記錄。

出現如下一些注意現象

用戶在很是規的時間登陸，或者用戶登陸系統的IP地址和以往的不同。
用戶登陸失敗的日誌記錄，尤爲是那些一再連續嘗試進入失敗的日誌記錄。
非法使用或不正當使用超級用戶權限。
無端或者非法從新啓動各項網絡服務的記錄。
不正常的日誌記錄，日誌殘缺不全，或者是wtmp這樣的日誌文件也缺乏了中間的記錄文件。

1、服務器常見故障和現象

一、有關服務器沒法啓動的主要緣由 :

①市電或電源線故障(斷電或接觸不良)

②電源或電源模組故障

③內存故障(通常伴有報警聲)

④CPU故障(通常也會有報警聲)

⑤主板故障

⑥其它插卡形成中斷衝突

2、服務器沒法啓動

一、檢查電源線和各類I/O接線是否鏈接正常。

二、檢查鏈接電源線後主板是否加電。

三、將服務器設爲最小配置(只接單顆cpu，最少的內存，只鏈接顯示器和鍵盤)直接短接主板開關跳線，看看是否可以啓動。

四、檢查電源，將全部的電源接口拔下，將電源的主板供電口的綠線和黑線短接，看看電源是否啓動。

五、若是判斷電源正常，則須要用替換法來排除故障，替換法是在最小化配置下先由最容易替換的配件開始替換(內存、cpu、主板)

3、系統頻繁重啓 ?

一、形成系統頻繁重啓的緣由：

①電源故障(替換法判斷解決)

②內存故障(可從BIOS錯誤報告中查出)

③網絡端口數據流量過大(工做壓力過大)

④軟件故障(更新或重裝操做系統解決)

4、服務器死機故障判斷處理：

服務器死機故障比較難以判斷，通常分爲軟件和硬件兩個方面。

一、第一方面-軟件故障

①首先檢查操做系統的系統日誌，能夠經過系統日誌來判斷部分形成死機的緣由。

②電腦病毒的緣由。

③系統軟件的bug或漏洞形成的死機，這種故障須要在判斷硬件無端障後作出，並且須要軟件提供商提供幫助。

④軟件使用不當或系統工做壓力過大，能夠請客戶適當下降服務器的工做壓力來看看是否可以解決

二、第二方面-硬件故障

①硬件衝突

②電源故障或電源供電不足，能夠經過對比計算服務器電源全部的負載功率的值來做出判斷。

③硬盤故障(經過掃描硬盤表面來檢查是否有壞道)

④內存故障(能夠經過主板BIOS中的錯誤報告和操做系統的報錯信息來判斷)

⑤主板故障(使用替換法來判斷)

⑥CPU故障(使用替換法)

⑦板卡故障(通常是SCSI/RAID卡或其餘pci設備也有可能形成系統死機，可用替換法判斷處理)

注意：系統死機故障須要在處理完後須要在一段時間內進行必定壓力的拷機測試來盡一步檢查故障是否完全解決。

5、安裝操做系統時提示找不到硬盤?

一、故障緣由：

無物理硬盤設備

硬盤線纜鏈接問題

沒有安裝硬盤控制器驅動或驅動不相符

6、如何得到驅動程序?

一、使用隨機光盤製做相應驅動

7、爲何用正確的驅動仍然沒法加載硬盤控制器驅動?

一、查看是否啓用了hostraid功能。

8、新購買的一塊硬盤，安裝到機器上以後，機器自檢沒法經過?

一、將新的硬盤取下，機器是否能夠自檢經過;

二、檢查新增長的硬盤的ID號是否與原來的硬盤的ID號相同，若是硬盤的ID號相同的話，自檢將沒法經過。

9、如何格式化SCSI硬盤?

一、有操做系統的狀況：使用磁盤管理工具格式化;

二、無操做系統的狀況：在SCSI管理控制界面格式化;

三、以ADAPTEC Raid卡爲例：開機-出現CTRL+A 信息時，按CTRL+A進入

①選中通道A

②選中SCSI UTILITY-將檢測到硬盤-選中要檢測的硬盤

③選中FORMAT可對硬盤進行全面格式化

④選中VERIFY可對硬盤進行檢測，檢查是否有壞道

注意：在格式化硬盤時不能中斷或停電，否則會損壞磁盤

10、在Aisino 系列中有RAID卡機器，當其中一個硬盤不能正常工做RAID報警，但系統能正常運行，怎麼辦?

一、用一個新硬盤，確保容量大於或等於不能正常工做的硬盤，最好用相同型號的硬盤替換便可。

二、RAID卡相關常見故障

第一類： RAID卡自己有問題

①常常表現爲RAID信息丟失，硬盤常常掉線，不能作REBUILD，開機自檢時檢測不到硬盤或時間長。

典型故障A：做完RAID1，安裝操做系統，一切正常，但第二次重啓系統時，發出報警聲，經檢查發現一塊硬盤掉線，REBUILD後，又恢復正常，但重啓後又掉線。懷疑爲硬盤故障，校驗硬盤後均無問題。最後更換RAID卡，故障解決。

典型故障B：機器常常死機，且有時候啓動速度很是慢。觀察系統日誌，發如今系統啓動時有這樣一個錯誤提示：設備/devices/scsi/port0 在傳輸等待的時間內沒有響應。更換RAID卡後，恢復正常。

第二類：硬盤自己問題

①表現爲硬盤掉線，在RAID陣列中的狀態爲DEAD，或者在做REBUILD時，做到某一進度就不能繼續

典型故障：硬盤掉線後，作REBUILD時，做到20%時出現錯誤提示沒法繼續進行。在確認掉線硬盤，硬盤盒及SCSI電纜都能正常工做後，對在線硬盤進行校驗，發現有壞道，修復硬盤，重作REBUILD，恢復正常。

第三類：硬盤盒或模組的接觸問題

①此類問題常常表現爲RAID卡根本檢測不到硬盤，此類問題比較簡單，但在處理硬盤盒相關機器時，須要注意一些問題。

典型故障：RIAD卡中檢測不到硬盤，把SCSI電纜接到主板的ULTRA160接口上，故障依舊，拔出硬盤盒(不包括硬盤盒後面的托架)更換，故障依舊，更換硬盤，仍是不行。最後卸下硬盤盒後面的托架(非熱插拔部分)，發現後托架上80PIN接口上的一根針彎曲，校直彎針，恢復正常。

11、在服務器上使用的SCSI硬盤，爲何硬盤的ID號不能設置爲7?

一、SCSI控制器中，默認將ID=7設置爲硬盤控制器佔，因此硬盤的ID號不能設置爲7

12、爲何開機自檢沒法經過?

一、解決方法：

①機器切斷電源，將機箱打開，用「COMS CLEAR」跳線的跳線帽將「COMS CLEAR」跳線的另外兩個針短接(跳線參看主板說明書)

②機器加電，自檢，等機器自檢完閉，報CMOS已被清除，而後將機器電源關掉，把跳線復原便可

③機器從新開機

十3、物理內存插槽報錯

一、解決方法：

①開機-按F2進入「SETUP」-「ADVANCED」–「MEMORY CONFIGURATION」回車-「CLEAR DIMM ERRORS」直接回車

十四、遠程桌面鏈接超出最大鏈接數

　　因爲服務器默認爲容許鏈接數爲2個，若是登錄後忘記註銷，而是直接關閉遠程桌面的話，服務器識別這次登錄仍是留在服務器端的。出現這種狀況，最多見的就是重啓服務器，可是，若是是高峯期，重啓服務器帶來的損失是顯而易見的。那麼此時，就能夠利用mstsc/console指令進行強行登錄了。打開「運行」框，鍵入「mstsc/v:xxx.xxx.xxx.xxx(服務器IP)/console」，便可強行登錄到遠程桌面了。

十五、系統端口隱患

　　對於服務器來講，首要保障穩定性和安全性。所以，咱們僅需保證服務器最基本的功能便可，就像聲卡都是默認禁止的。咱們並不須要太多的功能，也不須要太多的端口支持。像一些沒必要要，並且風險較高的端口大可封掉。而一些必要的，又有風險的端口，好比:338九、80等端口，咱們能夠經過修改註冊表的方法將其設置不特殊的祕密端口，這樣服務器端口的安全隱患就不復存在了。

十六、IDC服務器租用鏈接不上的解決方法

1、本地網絡不通

　　首先檢查一下本身的本地網絡是否連通，若是本地網絡不通確定是沒法鏈接服務器的，檢查本地網絡的方法你們也都比較熟悉，就再也不給你們詳細的介紹。

　　2、登陸服務器的帳號或密碼錯誤

　　這個是是最多見的緣由，鏈接服務器的時候須要登陸帳號密碼，若是輸入的帳號密碼錯誤會有相應的提示。遇到這種狀況，能夠選擇找回密碼，或者是聯繫服務器供應商解決，不過在這裏提醒你們，服務器鏈接的帳號密碼要妥善保管。

　　3、沒有相應的權限

　　虛擬主機和共享服務器出現權限不足的狀況概率會大一些，若是是租用的獨立服務器不能登陸是由於這個緣由，能夠直接找到服務器供應商，他們通常都有相應的解決方案，比本身解決要快的多。

　　4、機房的網絡或服務器的硬件出現了問題

　　這種狀況是比較少見的，固然也是最很差解決的一種狀況。若是是機房的網絡或者服務器出現了問題，那就不只是沒法登陸服務器了，就連網站也會沒法正常打開。這種狀況是能夠檢測的，一般是使用第三方軟件或者是用ping命令檢查，若是測試結果顯示的是超時的，就說明是服務器硬件或者網絡出現了問題，這個能夠找到服務器供應商幫助解決的，他們是提供這樣的售後服務的。

十7、LINUX中止iis佔用80端口

主機的服務器使用的是APMServ，但是啓動的時候會提示80端口被佔用，Apache啓動失敗，提示某些程序佔用80端口，可是檢查時卻不是，這樣的狀況極可能是由於機器上的IIS啓動了，因此只要關閉IIS程序Apache就能夠啓動了，服務器託管怎麼中止iis佔用80端口?

啓動IIS：
net start iisadmin （IIS的整個服務）
net start w3svc
中止IIS：
net stop iisadmin /y （會自動中止www、ftp和smtp服務）
若是用的IIS自帶FTP還能夠執行
net start MSFtpsvc
命令來啓動FTP
步驟：
1.新建一個記事本，命名爲IIS.txt
2.打開IIS.txt記事本，添加以下代碼：
@echo off
net stop iisadmin /yes
net start iisadmin
net start w3svc
3.另存爲IIS.bat便可，雙擊IIS.bat就開始批處理命令。

十8、客戶沒法遠程連接

先測試一下能不能遠程鏈接那臺服務器，若是能，說明客戶的網絡有問題；不能遠程鏈接，先ping一下服務器的IP，不能ping通，就查看此IP是否被封，沒有被封，接顯示器查看服務器的IP、掩碼、網關、DNS、防火牆、端口號、遠程鏈接是否開啓。若是IP能ping通，則查看一下遠程鏈接是否開啓，若是配置正常，客戶不能遠程連接，可能超過了最大鏈接數，須要重啓清除掉鏈接記錄，仍是不能解決，及時上級彙報，儘可能減小客戶損失。

十9、服務器丟包嚴重

查看流量監控圖，服務器有沒有超過峯值，有沒有被限速，有沒有IP被攻擊，而後ping問題服務器的IP，詢問運營商流量問題，查看是否丟包嚴重。

二10、排除系統啓動類故障——MBR扇區故障

1）備份MBR扇區數據

因爲MBR扇區中包含了整個硬盤的分區表記錄，所以該扇區的備份文件必須存放到其餘的存儲設備中，不然在恢復時將沒法讀取到備份文件。

[root@localhost ~]# mkdir /backup
[root@localhost ~]# mount /dev/sda3 /backup/
[root@localhost ~]# dd if=/dev/sda of=/backup/sda.mbr.bak bs=512 count=1
記錄了1+0 的讀入
記錄了1+0 的寫出
512字節(512 B)已複製，0.00029813 秒，1.7 MB/秒

2）模擬MBR扇區故障

使用dd命令，人爲的將MBR扇區的記錄覆蓋，模擬出MBR扇區被損壞的故障狀況（切記先作好備份，並且將備份文件存放到其餘硬盤）。

[root@localhost ~]# dd if=/dev/zero of=/dev/sda bs=512 count=1
記錄了1+0 的讀入
記錄了1+0 的寫出
512字節(512 B)已複製，0.00141057 秒，363 kB/秒

完成上述操做後重啓系統，將會出現「Operating system not found」的提示信息，表示沒法找到可用的操做系統，所以沒法啓動主機。

3）從備份文件中恢復MBR扇區數據

當出現安裝嚮導界面，選擇「Rescue installed system」，將以「急救模式」引導光盤中的Linux系統。

以後依次按Enter鍵接受默認的語言、鍵盤格式，提示是否配置網卡時通常選擇「NO」，而後系統會自動查找硬盤中的Linux分區並嘗試將其掛載到「/mnt/sysimage」目錄（選擇「Continue」確認並繼續）。會出現rescue窗口，單擊「OK」按鈕。

單擊「Skip」鍵後將進入到「bash-4.1#」提示符的Bash Shell環境，只要執行相應的命令掛載保存有備份文件的硬盤分區，並將數據恢復到硬盤「/dev/sda」中。

完成恢復後，執行「exit」命令退出臨時shell環境，執行「reboot」命令，系統將會自動重啓。

二11、

二12、

二十3、

注意：

重啓服務器的好處
通常來講，若是是正常的重啓是沒有什麼壞處，相反，對於操做系統而言反而有好處。重啓服務器能夠清除內存碎片，從新優化軟件調用級別，中斷無用的網絡端口等。

一、重啓服務器對服務器的保養有必定的做用，釋放內存，緩解CPU壓力。服務器運行時間長，會形成不少冗餘的DLL程序，致使系統運行速度較慢。系統重啓會使電腦恢復到默認加載狀態，也就是說在還未重啓時的不少應用程序進程都駐留在內存中，會使電腦變慢，重啓後它們就沒了。

二、還有就是有的一些對電腦的配置要從新啓動後才能生效。

三、重啓服務器可使有些程序能夠獲得更新。

重啓服務器的危害
一、正在進行寫硬盤操做時,即硬盤燈在不停地閃動時,斷電或者強制重啓，對硬盤的傷害較大。

二、熱啓動(CTRL+ALT+DEL)，對硬件上不會有損傷(軟件上有時會發生程序非法停止致使數據丟失的問題);若是是冷啓動(直接開關電源)，就會對硬件尤爲是硬盤形成傷害。除非沒法正常關機能夠考慮熱啓動。

三、重啓的忽然來電會有大量電流涌入電源，反覆進行會使機器壽命大大下降，並且在硬盤正在讀寫的時候忽然地斷電也很是容易引發硬盤出現壞道從而損失數據。

4.非正常重啓的危害：首先，這樣輕則會使硬盤掉數據，形成邏輯壞道，重則形成物理的壞道，損壞硬盤磁頭伺服電路。還有，這也會形成主板的二度傷害，主板在一通一斷當中對電路部分的衝擊是比較大的。再則也會對電源形成必定的損害。

重啓

一、有外網IP

碰到服務器重啓，先肯定服務器的位置，若是設備有外網IP，先長ping外網IP，找到設備後，重啓設備，重啓時，須要等電源燈全滅以後，停頓2-3S再開啓服務器，若是IP顯示斷過又通了，說明重啓好了/完畢。

一、沒有外網IP

直接接顯示器重啓，由於沒法在外部測試設備的連通性，接顯示器，設備重啓到登陸界面，設備重啓已經完成。

系統負載

問題一：Cpu 負載高，IO 負載低

1. 內存不夠2. 磁盤性能差3. SQL 問題 ------> 去數據庫層，進一步排查 SQL 問題4. IO 出問題了（磁盤到臨界了、Raid 設計很差、Raid 降級、鎖、在單位時間內 TPS 太高）5. TPS 太高: 大量的小數據 IO、大量的全表掃描

問題二：IO 負載高，Cpu 負載低

大量小的 IO 寫操做1. autocommit，產生大量小 IO。2. IO/PS,磁盤的一個定值，硬件出廠的時候，廠家定義的一個每秒最大的 IO 次數。大量大的 IO 寫操做1. SQL 問題的概率比較大。

問題三：IO 和 Cpu 負載都很高

1. 硬件不夠了或 SQL 存在問題。

基礎優化

優化思路

定位問題點

硬件 --> 系統 --> 應用 --> 數據庫 --> 架構（高可用、讀寫分離、分庫分表）

處理方向

明確優化目標、性能和安全的折中、防患未然。

硬件優化

主機方面

1. 根據數據庫類型，主機 CPU 選擇、內存容量選擇、磁盤選擇。

2. 平衡內存和磁盤資源。

3. 隨機的 I/O 和順序的 I/O。

4. 主機 RAID卡的 BBU (Battery Backup Unit) 關閉。

Cpu 的選擇

Cpu 的兩個關鍵因素：核數、主頻，根據不一樣的業務類型進行選擇：

1. Cpu 密集型：計算比較多，OLTP-->主頻很高的 Cpu、核數還要多。

2. IO 密集型：查詢比較多，OLAP-->核數要多，主頻不必定高的。

內存的選擇

1. OLAP 類型數據庫，須要更多內存，和數據獲取量級有關。

2. OLTP 類型數據通常內存是 Cpu 核心數量的 2 倍到 4 倍，沒有最佳實踐。

存儲方面

1. 根據存儲數據種類的不一樣，選擇不一樣的存儲設備。

2. 配置合理的 RAID 級別(Raid五、Raid十、熱備盤)。

3. 對於操做系統來說，不須要太特殊的選擇，最好作好冗餘（Raid 1）（SSD、SAS 、SATA）

4. Raid卡：主機 Raid 卡選擇：

4.1 實現操做系統磁盤的冗餘（Raid 1）。

4.2 平衡內存和磁盤資源。

4.3 隨機的 I/O 和順序的 I/O。

4.4 主機 Raid卡的 BBU (Battery Backup Unit) 要關閉。

網絡設備方面

使用流量支持更高的網絡設備（交換機、路由器、網線、網卡、HBA卡）。

注意：以上這些規劃應該在初始設計系統時就應該考慮好。

服務器硬件優化

一、物理狀態燈。

二、自帶管理設備：遠程控制卡（FENCE 設備：IPMI、ILO、IDARC），開關機、硬件監控。

三、第三方的監控軟件、設備（Snmp、Agent）對物理設施進行監控。

四、存儲設備：自帶的監控平臺。EMC2（HP 收購了）、日立（hds）、IBM低端 OEM hds，高端存儲是本身技術，華爲存儲。

系統優化

基本不須要調整，在硬件選擇方面下功夫便可。

內存

基本不須要調整，在硬件選擇方面下功夫便可。

Swap

MySQL 儘可能避免使用 Swap。

阿里雲的服務器中默認 Swap 爲 0 。

Raid、No LVM、 Ext 4 或 XFS、SSD、IO 調度策略。

Swap 調整方法

要關閉 Swap 分區，可以使用如下方法。

1. 臨時關閉方法

修改  /proc/sys/vm/swappiness 的內容改爲 0 。

2. 永久關閉方法

/etc/sysctl.conf 文件中添加 vm.swappiness=0 。

這個參數決定了 Linux 是傾向於使用 Swap，仍是傾向於釋放文件系統 Cache。在內存緊張的狀況下，數值越低越傾向於釋放文件系統 Cache。

固然，這個參數只能減小使用 Swap 的機率，並不能避免 Linux 使用 Swap。

如何處理內網、外網的數據交互的同時保障網絡安全？

網絡安全系統主要依靠防火牆、網絡防病毒系統等技術在網絡層構築一道安全屏障，並經過把不一樣的產品集成在同一個安全管理平臺上實現網絡層的統1、集中的安全管理。

網絡層安全平臺

選擇網絡層安全平臺時主要考慮這個安全平臺可否與其餘相關的網絡安全產品集成，可否對這些安全產品進行統一的管理，包括配置各相關安全產品的安全策略、維護相關安全產品的系統配置、檢查並調整相關安全產品的系統狀態等。

一個完善的網絡安全平臺至少須要部署如下產品：

防火牆、網絡的安全核心提供邊界安全防禦和訪問權限控制；

網絡防病毒系統、杜絕病毒傳播提供全網同步的病毒更新和策略設置提供全網殺毒。

安全網絡拓撲結構劃分

防火牆主要是防範不一樣網段之間的攻擊和非法訪問。因爲攻擊的對象主要是各種計算機，因此要科學地劃分計算機的類別來細化安全設計。在整個內網當中，根據用途能夠將計算機劃分爲三類：內部使用的工做站與終端，對外提供服務的應用服務器，以及重要數據服務器。這三類計算機的做用不一樣，重要程度不一樣，安全需求也不一樣。

第1、重點保護各類應用服務器，特別是要保證數據庫服務的代理服務器的絕對安全，不能容許用戶直接訪問。對應用服務器則要保證用戶的訪問是受到控制的要可以限制可以訪問該服務器的用戶範圍使其只能經過指定的方式進行訪問。

第2、數據服務器的安全性要大於對外提供多種服務的WWW服務器、E-mail服務器等應用服務器。因此數據庫服務器在防火牆定義的規則上要嚴於其餘服務器。

第3、內部網絡有可能會對各類服務器和應用系統的直接的網絡攻擊，因此內部辦公網絡也須要和代理服務器、對外服務器、WWW、E-mail等隔離開。

第4、不能容許外網用戶直接訪問內部網絡。

上述安全需求須要經過劃分出安全的網絡拓撲結構，並經過VLAN劃分、安全路由器配置和防火牆網關的配置來控制不一樣網段之間的訪問控制。劃分網絡拓撲結構時，一方面要保證網絡的安全；另外一方面不能對原有網絡結構作太大的更改。爲此建議採用以防火牆爲核心的支持非軍事化區的三網段安全網絡拓撲結構。

兆端口模式可否實現POE供電？用a或b標準打的線是否能夠跑千兆？

按照a或者b標準打的線能跑千兆，可是8芯線必須所有互通（由於百兆只要兩端的1326互通就能夠了）

POE供電方式有兩種：一種是兩對線傳輸信息，兩對線供電;另外一種方式是線對即傳輸信息又輸送電源。POE供電主要取決於網絡設備的功能，傳輸線路沒有問題。

IDC數據機房機櫃專用PDU如何佈局規劃？

IDC機房PDU規劃佈局建議考慮以下原則:

(1)服務器主機、存儲設備、服務器機櫃宜分區佈置，主機、存儲設備、服務器機櫃及UPS、空調機等設備應按產品要求留出檢修空間，容許相鄰設備的維修間距部分重疊。

(2)設備之間走道淨寬不該小於1200mm，才能夠包裝充足的安裝檢修空間。

(3)劃分階段進入機房的設備及預留擴充設備的相對位置，既要符合計算機系統的工藝流程，又要方便從此擴充設備的進場就位及線纜的鏈接。

(4)服務器機櫃側面可無間距排列，並櫃，以便於強、弱電線(纜)的敷設。每排機櫃之間的距離最好符合地板模數，以免機櫃先後出現小於30Omm的補邊地板。

(5)放置發熱量較大的服務器如IBM690、670等服務器機櫃時，其機櫃前面之間的淨距離不該小於2.lm，以避免熱密度過高從而影響設備的散熱。

(6)設備較多的服務器機房建議列頭櫃方式，使綜合佈線線纜聚集到列頭櫃而不是核心櫃從而節省雙絞線與光纖，同時便於使用二級網絡交換設備，也便於安裝使用服務於某列機櫃的KVM系統。

(7)新風機的安裝位置應保證新風是取自室外新鮮、清潔的空氣，新風人口應不影響大樓外觀，迸風口下緣距室外地坪不宜小於2m;當新鳳入口設在綠化地帶時，進風口下緣不宜小於lm，以減小塵埃污染，延緩空氣過濾器的清洗時間，延長空氣過濾器的壽命。

(8)機房精密空調機在有效送風距離內，送風方向應與設備排列方向一致;採用地板下送風方式時，空調機送風方向應與地板下強、弱電線槽順向佈置的方向一致，以減小空調系統的阻力、充分發揮空調系統效率。

(9)排風機安裝位置應保證其排風口高於新風入口並避免送風、排風短路。

(10)新風管道的送風口位置應使新風與空調機迴風充分混合。

(11)配電櫃佈置宜靠近末端負載以減小線纜，方便維護管理。

(12)應有暢通的疏散通道。

(13)鑑於市場上主流服務器及服務器機櫃的散熱方式大多數爲先後向通風方式，所以先後向通風的服務器機櫃宜採用面對面、背靠背的佈置方式。在機櫃正面佈置地板送風口，使氣流造成冷熱通道，以減小前排機櫃排出的熱氣流對後排機櫃的影響，充分發揮空調系統的效能。

直流UPS系統和傳統交流UPS系統相比哪一個更節能？

直流UPS 產品由交流配電單元、整流模塊、蓄電池、直流配電單元、電池管理單元及監控模塊組成，適用於工礦企業、教育、商務、銀行、證劵等行業、計算機、服務器、辦公自動化設備、安防監控等設備，還可應用於醫療和網絡設備。在交流掉電或故障時能不間斷地給設備提供穩定的後備電源，保證設備能正常工做一段時間，保存相關重要數據。

其產品效率、帶載能力、可靠性相對交流UPS有大幅度的提升，但價格卻比交流UPS便宜，輸入電源轉換過程零間斷，保證負載良好穩定的工做。

直流UPS系統有效的節能只有1-6%範圍。

在數據中心機房內Fiber Channel佈線有何特殊要求?

在數據中心機房內光纜通道主要用於萬兆網絡，選用時注意如下幾點：

傳輸距離：OM3多模光纖爲300m-550m，單模光纖爲10-40km

採用光纖的鏈接器件和適配器爲SC、LC或按照網絡設備的端口類型選用

若是採用敞開的電纜橋架敷設方式光纜要達到相應的防火等級（A級或B級機房）

光配線模塊的設置位置（如設備機櫃頂部、敞開式橋架上、佈線列頭櫃及各類配線機櫃內）

網絡檢測經過，但鏈接PC顯示網絡斷開？

這鐘問題主要從如下幾方面檢查

1.網線水晶頭是否全通

2.pc端或牆端接觸不良

3.對應的交換機接口有問題,也就這些吧

電源故障的緣由示例

供電設備故障一、忽然高負載用電，致使電閘跳閘

二、啓動時電流太高致使電壓波動

三、設備老化致使輸出功率降低

四、輸電裝置或電子設備的開關等發生"電力噪聲";

雷電致使的故障一、輸電系統故障致使停電（可用UPS應對）

二、因避雷設施機制引起的瞬間停電和電力變弱

三、雷電引起的電力噪聲

四、因雷電引起的電壓異常徒增與電流異常徒增（雷電浪涌電流）（須要使用防浪涌電流裝置）

人爲引發的故障一、故意或不當心切斷電源纜線致使跳閘

二、預先通知了的、因爲施工或檢查等商業緣由的停電

CPU使用率上升的主要緣由：

用戶通訊量處理增多。
出現突發通訊量。
用量(sizing，即關於路由器可以處理的帶寬和用戶數量等規模的預計設計)不合適，網絡設備處理目不暇接。

當CPU的使用率很高，會引發如下問題。

性能降低，使經過該設備的用戶數據響應遲緩。
設備上運行的業務沒法正常響應，進而會致使如下問題。

Telnet/SSH響應遲緩，或設備沒法進行Telnet/SSH鏈接。

控制端口響應遲緩。

設備上網絡接口對ping命令的應答遲緩甚至無應答。

沒法進行更新路由等管理類的通訊交互。

緩存發生故障的機率高。

在路由器中使用的主要工具軟件包： ping、Traceroute、telnet、ssh、rlogin、ftp、tftp;

路由器使用的內存種類 ： ROM 、RAM、 NVRAM、閃存。

啓動路由器的流程：

一、通電後會執行保存在ROM中的POST(上電自檢)程序。該步驟主要識別物理接口等設備上的部件。完成對硬件的檢測。

二、當POST執行完畢後，執行在ROM中保存的bootstrap程序，

三、檢索閃存內的IOS鏡像，並將其加載到RAM中。

四、IOS啓動後在NVRAM中檢索startup-config信息，若是存在該文件則將以running-config的形式在RAM中展開。當設備剛出廠，在NVRAM中不存在start-config時，則經過

一個 EXT3 的文件分區，當使用 touch test.file 命令建立一個新文件時報錯，報錯的信息是提示磁盤已滿，可是採用 df -h 命令查看磁盤大小時，只使用了，60%的磁盤空間，爲何會出現這個狀況，說說你的理由。

答：兩種狀況，一種是磁盤配額問題，另一種就是 EXT3 文件系統的設計不適合不少小文件跟大文件的一種文件格式，出現不少小文件時，容易致使 inode 耗盡了。

當文件系統受到破壞時，如何檢查和修復系統？
參考答案：
成功修復文件系統的前提是要有兩個以上的主文件系統，並保證在修復以前首先卸載將被修復的文件系統。
使用命令 fsck 對受到破壞的文件系統進行修復。fsck 檢查文件系統分爲 5 步每一步檢查系統不一樣部分的鏈接特性並對上一步進行驗證和修改。在執行 fsck 命令時，檢查首先從超級塊開始，而後是分配的磁盤塊、路徑名、目錄的鏈接性、連接數目以及空閒塊鏈表、i-node。

某 Linux 主機的/etc/rc.d/rc.inet1 文件中有以下語句，請修正錯誤，並解釋其內容。
/etc/rc.d/rc.inet1：
……
ROUTE add –net default gw 192.168.0.101 netmask 255.255.0.0 metric 1
ROUTE add –net 192.168.1.0 gw 192.168.0.250 netmask 255.255.0.0 metric 1
參考答案:
修正錯誤:
（1）ROUTE 應改成小寫：route；（2）netmask 255.255.0.0 應改成:netmask
255.255.255.0；
（3）缺省路由的子網掩碼應改成:netmask 0.0.0.0；
（4）缺省路由必須在最後設定,不然其後的路由將無效。
解釋內容:
（1）route：創建靜態路由表的命令；（2）add：增長一條新路由；
（3）-net 192.168.1.0：到達一個目標網絡的網絡地址；
（4）default：創建一條缺省路由；（5）gw 192.168.0.101：網關地址；
（6）metric 1：到達目標網絡通過的路由器數（跳數）。

某 Linux 主機的/etc/rc.d/rc.inet1 文件中有以下語句，請修正錯誤，並解釋其內容。
/etc/rc.d/rc.inet1：
……
ROUTE add –net default gw 192.168.0.101 netmask 255.255.0.0 metric 1
ROUTE add –net 192.168.1.0 gw 192.168.0.250 netmask 255.255.0.0 metric 1
參考答案:
修正錯誤:
（1）ROUTE 應改成小寫：route；（2）netmask 255.255.0.0 應改成:netmask
255.255.255.0；
（3）缺省路由的子網掩碼應改成:netmask 0.0.0.0；
（4）缺省路由必須在最後設定,不然其後的路由將無效。
解釋內容:
（1）route：創建靜態路由表的命令；（2）add：增長一條新路由；
（3）-net 192.168.1.0：到達一個目標網絡的網絡地址；
（4）default：創建一條缺省路由；（5）gw 192.168.0.101：網關地址；
（6）metric 1：到達目標網絡通過的路由器數（跳數）