TSM平常維護

自動啓動TSM服務器node

你能夠將服務器配置爲在系統啓動時自動啓動,要配置TSM服務器,請使用rc.dsmserv腳本。sql

rc.dsmserv腳本位於/opt/tivoli/tsm/server/bin目錄中。數據庫

若是未使用嚮導來配置IBM TSM服務器,請在/etc/inittab文件中爲要自動啓動的每一個服務器都添加一個條目。後端

若是實例全部者爲tsminst1而且服務器實例目錄爲/home/tsminst1/tsminst1,那麼將如下條目添加到/etc/inittab中的一行上:緩存

tsm1:3:once:/opt/tivoli/tsm/server/bin/rc.dsmserv -u tsminst1 -i /home/tsminst1/tsminst1 -q >/dev/console 2>&1服務器

 

暫停服務器session

暫停服務器時,全部進程都會忽然中止,而且會取消客戶機會話,即便它們未完成也如此。從新啓動服務器後,將會回滾全部進行中事務。併發

要在不嚴重影響服務器的管理和客戶機節點活動的狀況下關閉服務器,必須執行如下操做:dom

1.經過發出DISABLE SESSIONS 命令,禁用服務器以防止啓動新的客戶機節點會話。大數據

2.通知全部現有管理會話和客戶機節點會話你計劃關閉服務器。

3.經過發出CANCEL SESSION命令和相關聯的會話號,取消全部現有管理會話或客戶機節點會話。使用QUERY SESSION命令能夠獲取會話號。

4.經過使用QUERY PROCESS命令瞭解是否有任何其餘進程在運行,請使用CANCEL PROCESS命令將其取消。

5.使用HALT命令暫停服務器以關閉全部服務器操做。

 

服務器做爲後臺進程運行時將其中止

若是沒法使用管理客戶機鏈接至服務器可是想要中止服務器,可以使用如下步驟來取消進程:

1.cat /instance_dir/dsmserv.v6lock查找TSM服務器的正確進程標識。

2.使用KILL命令中止進程

 

更改TSM服務器的主機名

1.中止系統上正在運行的任何TSM服務器。

2.經過使用操做系統定義的過程來更改主機名。

3.經過系統上的root用戶標識,發出如下命令:

db2set -g DB2SYSTEM=newhostname

4.經過發出如下命令驗證DB2SYSTEM值是否已更改:

db2set -all

5.在instance directory/sqllib目錄中,找到db2nodes.cfg文件。文件包含了顯示先前主機名的條目:

0 tsmnew newhostname 0

 

添加或更新服務器選項

若是你具備系統特權,能夠在dsmserv.opt文件中添加或更新服務器選項。

能夠經過使用SETOT命令編輯dsmserv.opt文件來添加或更新服務器選項。

 

在不從新啓動服務器的狀況下添加或更新服務器選項

可經過發出SETOPT命令來更新現有服務器選項:

setopt maxsessions 20

 

獲取關於命令和錯誤消息的幫助

可發出不帶操做數的HELP命令來顯示幫助選項的菜單。也可發出帶操做數的HELP命令,這些操做數用於指定幫助菜單號、命令或消息號。

要顯示幫助菜單,請輸入:

help

要顯示關於remove命令的幫助信息,請輸入:

help remove

要顯示關於特定消息(例如ANR0992I)的幫助信息,請輸入:

help 0992

 

數據庫和恢復日誌的概述

數據庫不存儲客戶機數據;它指向客戶機文件在存儲池中的位置。

數據庫包括有關下列內容的信息:

*客戶機節點和管理員

*策略和調度

*服務器設置

*服務器存儲器上的客戶機文件的位置

*服務器操做(例如活動日誌和事件記錄)

數據庫管理器管理數據庫卷,而且無需對這些捲進行格式化。

 

注意:若是數據庫不可用,那麼整個TSM 服務器都不可用。若是數據庫丟失且沒法恢復,那麼可能難以或沒法恢復由該服務器管理的數據。

 

數據庫可分佈在最多128個目錄中。支持的最大數據庫大小爲2TB。

 

數據庫管理器的一些優勢包括:

*自動備份數據庫

*自動統計信息收集

*自動數據庫重組

*用於數據庫備份和復原的多數據流

*SQL查詢

*數據庫審計

*數據庫緩衝區大小

 

恢復日誌

恢復日誌幫助確保故障(如系統停電或應用程序錯誤)不會使數據庫處於不一致狀態。若是你須要復原數據庫,那麼恢復日誌不可或缺。

若是發生故障,那麼會回滾已進行但未落實的更改。而後,將會重作可能還沒有實際寫入磁盤的全部已落實事務。

恢復日誌由下列日誌組成:

*活動日誌

*日誌鏡像(可選)

*歸檔日誌

*歸檔故障轉移日誌(可選)

在安裝過程當中,須要指定目錄位置、活動日誌大小和歸檔日誌位置。

 

根據文件數估算數據庫空間需求

要根據服務器存儲器中的最大文件數估算數據庫的空間需求,請使用如下準則:

*文件的每一個已存儲版本須要600-1000字節。

*每一個高速緩存的文件、副本存儲池文件、活動數據池文件和已進行重複數據刪除的文件須要100-200字節。

*還須要額外的空間用於數據庫優化,以支持不斷變化的數據存取模式並支持數據的服務器後端處理。額外空間量等於文件對象總字節數的估算值的50%。

 

根據存儲池容量估算數據庫空間需求

要根據存儲池容量估算數據庫空間需求,請使用1-5%的比率。

 

估算恢復日誌空間需求

對於估算活動日誌的大小,請考慮如下通常準則:

*活動日誌的建議開始大小爲16GB

*確保活動日誌大小至少足夠用於服務器一般處理的併發活動量。能夠考慮使用20%的合理額外空間量。

*監視已用和可用活動日誌空間。

*確保包含活動日誌的目錄大於或等於活動日誌大小。

 

歸檔日誌的建議開始大小爲48GB

 

歸檔日誌目錄必須足夠大,以包含自上次徹底備份以來生成的日誌文件。

 

監視歸檔日誌利用率和歸檔日誌目錄中的空間。若是歸檔日誌目錄中的空間變滿,那麼可能會指示如下問題:

*服務器沒法執行徹底數據庫備份。

*其餘應用程序正在對歸檔日誌目錄進行寫入,從而耗盡歸檔日誌所需的空間。

 

監視數據庫和恢復日誌的空間利用狀況

要肯定已用和可用的活動日誌空間量,能夠發出QUERY LOG命令。要監視數據庫和恢復日誌中的空間利用狀況,還可檢查活動日誌以獲取消息。

 

若是可用活動日誌空間量太低,那麼在活動日誌中會顯示如下消息:

ANR4531I:IC_AUTOBACKUP_LOG_USED_SINCE_LAST_BACKUP_TRIGGER

當活動日誌空間超過最大指定大小時會顯示此消息。TSM 服務器啓動徹底數據庫備份。

要更改最大日誌大小,請中止服務器,打開dsmserv.op文件,而後爲ACTIVELOGSIZE選項指定新值,重啓服務器。

 

ANR0297I:IC_BACKUP_NEEDED_LOG_USED_SINCE_LAST_BACKUP

當活動日誌空間超過最大指定大小時會顯示此消息。你必須手動備份數據庫。

要更改最大日誌大小,請中止服務器,打開dsmserv.op文件,而後爲ACTIVELOGSIZE選項指定新值,重啓服務器。

 

ANR4529I:IC_AUTOBACKUP_LOG_UTILIZATION_TRIGGER

已用活動日誌空間與可用活動日誌空間的比率超過日誌使用率閥值。若是已進行至少一次徹底數據庫備份,那麼TSM服務器將啓動增量數據庫備份。不然,服務器會啓動徹底數據庫備份。

 

ANR0295I:IC_BACKUP_NEEDED_LOG_UTILIZATION

已用活動日誌空間與可用活動日誌空間的比率超過日誌使用率閥值,你必須手動備份數據庫。

 

歸檔日誌

若是可用歸檔日誌空間量太低,那麼在活動日誌中會顯示如下消息:

ANR0299I:IC_BACKUP_NEEDED_ARCHLOG_USED

已用歸檔日誌空間與可用歸檔日誌空間的比率超過日誌利用率閥值。TSM服務器啓動自動徹底數據庫備份。

 

數據庫

若是可用於數據庫活動的空間量太低,那麼在活動日誌中會顯示如下消息:

ANR2992W:IC_LOG_FILE_SYSTEM_UTILIZATION_WARNING_2

已用數據庫空間超過數據庫空間利用率閥值。要增長數據庫空間,請使用EXTED DBSPACE命令、EXTEND DBSPACE命令或帶有DBDIR參數的DSMSERV FORMAT使用程序。

 

ANR1546W:FILESYSTEM_DBPATH_LESS_1GB

服務器數據庫文件所在目錄的可用空間小於1GB.

 

監視數據庫和恢復日誌

當TSM服務器聯機時,你能夠發出QUERY DBSPACE命令來查看你的數據庫所在的文件系統或驅動器的總空間、已用空間和可用空間。要在服務器脫機時查看相同信息,請發出DSMSERV DISPLAY DBSPACE命令。

 

要在服務器聯機時查看有關數據庫的更多詳細信息,請發出QUERY DB命令。

 

當TSM服務器聯機時,請發出QUERY LOG F=D命令以顯示活動日誌的總空間、已用空間和可用空間以及全部日誌的位置。要在TSM服務器脫機時顯示相同信息,請發出DSMSERV DISPLAY LOG命令。

 

能夠在服務器控制檯和活動日誌中查看有關數據庫的信息。可以使用SET DBREPORTMODE命令來設置該信息的級別。指定不顯示診斷信息(NONE)、顯示全部診斷信息(FULL)或者僅顯示異常而且可能表示錯誤的事件(PARTIAL)。缺省值爲PARTIAL。

 

增長數據庫的大小

你可經過建立目錄並將目錄添加到數據庫來增長數據庫的大小。

服務器可以使用對於驅動器或數據庫目錄所在文件系統可用的全部空間。支持的最大數據庫大小爲2TB。

 

要增長數據庫的大小,請採用如下步驟:

1.建立一個或多個數據庫目錄。

2.發出EXTEND DBSPACE命令以將一個或多個目錄添加到數據庫。

 

在將目錄添加到TSM服務器以後,可能沒法在最大程度地使用該目錄。某些TSM事件可能致使添加的數據庫空間隨時間推移而被使用。

 

增長活動日誌的大小

若是日誌將耗盡空間,那麼將回滾當前事務,而且服務器會發出錯誤消息並中止。只有在增長活動日誌大小以後,才能從新啓動服務器。

要在服務器中止時增長活動日誌的大小,請完成如下步驟:

1.發出DSMSERV DISPLAY LOG脫機實用程序以顯示活動日誌的大小。

2.確保活動日誌的位置具備足夠空間以用於增長後的日誌大小。

3.中止服務器

4.在dsmserv.opt文件中,將ACTIVELGSIZE選項更新爲活動日誌的新的最大大小(以字節爲單位)。

5.若是你將使用新的活動日誌目錄,請更新ACTIVELOGDIR服務器選項中指定的目錄名稱。

6.從新啓動服務器

將自動定義512MB的日誌文件,直至達到ACTIVELOGSIZE選項中指定的大小。

 

 手動備份數據庫

要手動備份數據庫,請發出BACKUP DB命令。

backup db devclass=ltotape type=full volumename=vol1,vol2,vol3 numstreams=3

 

恢復數據庫

要復原數據庫,你必須具備數據庫備份卷、卷歷史記錄文件和設備配置文件。數據庫備份卷能夠是徹底備份、增量備份或快照。數據庫備份還能夠包含恢復日誌的備份。

要將數據庫恢復到其最近狀態,請輸入DSMSERV RESTORE DB命令。

dsmserv restore db

 

移動數據庫和恢復日誌

你能夠將同一文件系統上的數據庫、活動日誌和歸檔日誌移動到其餘文件系統上的各類目錄,以進行更好的保護。

1.備份數據庫。

backup db type=full devclass=files

2.中止服務器。

3.建立數據庫、活動日誌和歸檔日誌的目錄。

mkdir /tsmdb005

mkdir /tsmdb006

mkdir /tsmdb007

mkdir /tsmdb008

mkdir /activelog2

mkdir /archivelog2

4.建立列出數據庫目錄位置的文件。例如,下面是dbdirs.txt文件的內容:

/tsmdb005

/tsmdb006

/tsmdb007

/tsmdb008

5.除去數據庫實例。

dsmserv removedb TSMDB1

6.請發出dsmserv restore db實用程序來移動數據庫並建立新的活動日誌。例如:

dsmserv restore db todate=today on=dbdirs.txt activelogdir=/activelog2

7.從新啓動服務器

8.將歸檔日誌從舊目錄移動到新目錄。請確保保留任何子目錄結構。

cp -r /archivelog/* /archivelog2

 

每日監視任務

*驗證數據庫文件系統是否有足夠的空間。

*檢查數據庫使用率百分比、可用空間和可用頁面。

*驗證包含這些日誌文件的文件系統中是否有足夠的磁盤空間。

--活動日誌

--歸檔日誌

--鏡像日誌

--歸檔故障轉移日誌

*驗證明例目錄文件系統是否有足夠的空間。

*驗證數據庫備份是否成功完成,以及運行備份的頻率是否足夠。

*檢查數據庫和恢復日誌統計信息。

*驗證是否具備設備配置的當前備份文件以及卷歷史記錄信息。可經過查看dsmserv.opt文件的DEVCONFIG和VOLUMEHISTORY選項來查找備份的文件名。請確保存儲文件的文件系統具備足夠的空間。

*搜索總結表以查找失敗的進程。

*搜索活動日誌以查找錯誤信息。

*對於啓用了重複數據刪除的存儲池,請確保進程正在成功完成。

*檢查存儲池的狀態以確保有足夠的可用空間。

*檢查是否有任何失敗的存儲池遷移。

*檢查有多少可用臨時卷。

*肯定是否有任何磁帶機處於脫機狀態,或者是否有磁帶機路徑處於脫機狀態。

*肯定是否有任何庫處於脫機狀態,或者是否有庫路徑處於脫機狀態。

*驗證全部磁帶是否有相應的寫訪問權。

*驗證disaster recovery manager(DRM)的狀態和設置。

*驗證是否有失敗或缺失的調度。

*檢查調度客戶機操做的總結表。

*檢查調度服務器操做的總結表。

 

使用命令行監視操做

每日監視服務器進程

1.搜索總結表以查找先前24小時週期內失敗的任何服務器進程:

select activity as process,number as processnum from summary where

activity in ('EXPIRATION','RECLAMATION','MIGRATION','STGPOOL BACKUP',

'FULL_DBBACKUP','INCR_DBBACKUP') and successful='NO' and end_time>

(current_timestamp - interval '24' hours)

2.搜索活動日誌以查找與第一步中的命令輸出中指示的失敗進程號關聯的消息。

select message from actlog where process=7 and date_time>(current_timestamp - interval '24' hours) and severity in ('W','E','S')

3.檢查成功數據庫備份的頻率以肯定運行的頻率是否足夠,由於足夠的頻率才能清除歸檔日誌空間,提供足夠恢復點,以及容許保存相應數量的卷以進行災難恢復。

 

每日監視數據庫

1.使用query dbspace命令,而後檢查經過查詢報告的文件系統信息,以確保文件系統具備足夠空間。請檢查總空間、已用空間和可用空間。

2.檢查數據庫所在的文件系統

3.查詢數據庫以確保使用率百分比是可接受的,並且剩餘的空間足以應對將來幾天或幾周的預期活動。這包括檢查可用空間容量和可用頁面的值。

query db f=d

4.監視文件系統以確保它們沒有耗盡空間。

query log f=d

5.檢查實例目錄以確保它有足夠的空間.

檢查instance_dir/sqllib/db2dump目錄並按期刪除*.trap.txt和*.dump.bin文件.

V6.2和更高版本的服務器:

db2diag.log文件由TSM管理而且將按期自動清理.

DB2DIAGSIZE選項可用於控制診斷日誌文件的最大大小.

 V6.1服務器必須按期刪除db2diag.log文件.

6.驗證數據庫備份是否已成功完成

7.檢查以確保dsmserv.opt文件中配置的DEVCONFIG和VOLUMEHISTORY文件是當前版本並且是最新的.

 

每日監視磁盤存儲池

1.檢查存儲池的狀態並確保有足夠高的可用空間。

*檢查使用率百分比以確保空間量足以應對數據傳入速率。

*應將遷移閥值的上限和下限設置爲將容許正確遷移循環的值

*若是存儲池設置爲CACHE=YES,那麼遷移百分比應接近於零。

*這表示系統正在將項適當地清除存儲池。

發出QUERY STGPOOL命令顯示關於一個或多個存儲池的信息。

2.查看磁盤卷的狀態。發出SELECT命令並指定特定設備類名稱:

select  volume_name,status from volumes

where devclass_name='devclass_name‘

3.檢查是否存在可致使空間未及時釋放的任何失敗遷移:

select start_time,end_time,activity as process,number as processnum,

entity as poolname from summary where activity='MIGRATION' and successful='NO'

and end_time>(current_timestamp - interval '24' hours)

 

每日監視順序存取存儲池

1.檢查存儲池的狀態並確保有足夠的可用空間。

QUERY STGPOOL

2.使用該select命令檢查順序存取存儲池卷的狀態:

select volume_name,status,access,write_errors,read_errors,

error_state from volumes where stgpool_name='STORAGE_POOL_NAME'

3.驗證是否全部磁帶都有都有適當的寫訪問權:

select volume_name,access from volumes

where stgpool_name='TAPEPOOL' and access!='READWRITE'

4.使用QUERY DIRSPACE命令可顯示設備類爲FILE的設備類相關聯目錄中的可用空間。

query dirspace

5.使用select命令肯定磁帶庫中有多少臨時卷可用:

select library_name,count(*) "Scratch volumes" from libvolumes

where status='Scratch' group by library_name

6.肯定可能從使用這些磁帶庫的存儲池分配出多少臨時卷

select stgpool_name,(maxscratch-numsratchused)

as "Num Scratch Allocatable" from stgpools

where devclass='DEVICE_CLASS_NAME'

7.肯定是否有任何磁帶機或路徑處於脫機狀態

a.檢查以確保磁帶機處於聯機狀態:

select drive_name,online from drives

where online<>'YES'

b.檢查以確保磁帶機的路徑也處於聯機狀態。

select library_name,destination_name,online

from paths where online<>'YES' and destination_type=’DRIVE‘

8.檢查是否有任何庫路徑處於脫機狀態:

select destination_name,device,online from paths

where online<>'YES' and destination_type='LIBRARY'

 

每日監視調度操做

1.查找可能指示問題的任何缺失或失敗的調度操做:

query event * * type=client

query event * type=admin

2.檢查缺失的調度

select time(scheduled_start)"Start Time",node_name"Client"

from events where status='Missed'

3.檢查任何失敗的調度

select time(scheduled_start)"Start Time",node_name"Client"

from events where status='Failed'

4.檢查活動日誌以查找可能指示問題的任何意外消息。

query actlog search=ANE????E begindate=today

query actlog search=ANE????W begindate=today

query actlog search=ANE????S begindate=today

5.檢查火活動日誌以查找服務器消息

query actlog search=ANR????E begindate=today

query actlog search=ANR????W begindate=today

query actlog search=ANR????S begindate=today

query actlog search=ANR9999D begindate=today

6.檢查各類調度客戶機操做

select * from summary where schedule_name is not null and end_time>

(current_timestamp - interval '24' hours) and activity in

('BACKUP','ARCHIVE','RETRIEVE','RESTORE')

7.檢查調度服務器進程

select * from summary where schedule_name is not null and end_time>

(current_timestamp - interval '24' hours) and activity in

('EXPIRATION','MIGRATION',RECLAMATION','STGPOOL BACKUP','FULL_DBBACKUP','INCR_DBBACKUP')


基本監視方法

關於客戶機會話的信息

query session

關於服務器進程的信息

query process

 關於服務器設置的信息

query status

查詢服務器選項

query option

查詢系統

query system

該命令可用於爲IBM服務所做的問題分許來收集統計信息並提供信息

輸入query system命令時,服務器將發出如下查詢:

query association

顯示與一個或多個客戶機調度相關聯的全部客戶機節點

query copygroup

顯示全部備份和歸檔副本組(標準格式)

query db

顯示關於數據庫的信息(詳細格式)

query dbspace

顯示與數據庫使用的目錄相關的顯示信息

query devclass

顯示全部設備類(詳細格式)

quer domain

顯示全部策略域(標準格式)

query log

顯示關於恢復日誌的信息(詳細格式

query mgmtclass

顯示全部管理類(標準格式)

query option

顯示全部服務器選項

query process

顯示關於全部活動後臺進程的信息

query schedule

顯示客戶機調度(標準格式)

query session

以標準格式顯示全部管理和客戶機節點會話的相關信息

query status

顯示常規服務器參數

query stgpool

顯示關於全部存儲池的信息(詳細格式)

query volume

顯示關於全部存儲池的信息(標準格式)

query volhistory

顯示服務器收集的順序卷歷史記錄信息

select platform_name,count(*) from nodes group by platform_name

按平臺顯示客戶機節點的數量

select stgpool_name,devclass_name,count(*) from volumes

group by stgpool_name,devclass_name

顯示被分配了一個或多個卷的全部存儲池的名稱及關聯設備類

 

瞭解系統目錄表

TSM提供了三個系統目錄表:

SYSCAT.TABLES

包含能夠用SELECT命令查詢的全部表格的相關信息

SYSCAT.COLUMNS

說明每一個表中的列

SYSCAT.ENUMTYPES

定義每種枚舉類型的有效值以及每種類型的值的順序。