記錄一次宕機後，OGG出現故障，OGG-01705的解決方法

時間 2021-04-15

標籤數據庫 bash ide 性能 spa .net 日誌 blog token 進程欄目 SQL 简体版

原文原文鏈接

背景說明：數據庫

2021年4月14日，晚上20點07分，數據庫一個節點因爲故障致使出現宕機狀況。宕機緣由，根據黑屏顯示，大概是kernel的問題，這個不作深刻研究，重啓後，數據庫啓動正常。bash

啓動ogg進程的時候，因爲源端包含ext抽取進程，dump傳輸進程。逐一將其進行重啓。ext抽取進程啓動後正常傳輸。dmp進程abended,發現啓動不了。我對其進行了分析，發現該問題仍是第一次遇到。ide

經過查看報錯日誌，view report dmpxxxx。因爲不能拍圖，還有內網緣由，我就從網上找了這個告警。性能

ERROR OGG-01705 Input checkpoint position 160374765 for input trail file '/odc/xxxx/s027505' is greater than the size of the file (160301092).Please consult Oracle Knowledge Management Doc ID 1138409.1. for instructions.

處理方法：
spa

1. 首先經過metalink查看報錯的 ID號，有了metalink 真好，涉及到Oracle方面的真是不愁找不到案例。.net

經過metalink查看，說的是ogg首先是經過cache裏面的數據，傳輸到目標端，而後再寫到trail文件中。看metalink，須要強大到英文理解能力。我繼續百度，看看其餘的案例。果真有不少這樣的案例。日誌

如下是案例的地址：blog

http://blog.itpub.net/29302187/viewspace-2128573token

而在goldengate中，datapump和extract在交換數據的時候data pump是從cache區域中去抓取數據傳送到目標端(而不是等到真的寫到磁盤後，能夠提升性能)。當意外down機時系統來不及將cache中的內容寫到磁盤，出現了datapump新建的檢查點是基於cache中的信息更新的，而trail文件的大小其實是要比檢查點寫的RBA小。當下次啓動時，前一個進程進行恢復動做，並將比文件大的一部份內容寫到了下一個trail文件中(extract啓動的時候會etrollover)。因此，要麼將進程的檢查點跳到下一個trail的指定RBA，要麼從新初始化。進程

從這篇文章中能夠看到，講了不少，主要的意思是如何計算rba，而後肯定後如何解決。

經過查看，發現仍是有點複雜。

2. 咱們以前遇到過不少次trail損壞的問題。並且對其也通過總結。經驗總結仍是頗有必要的。

操做大概步驟：

按照咱們的方法來作。

分析：因爲源端抽取是全量抽取，到了目標端是經過拆分來實現並行的，所以須要肯定目標端的scn號。咱們看dirdat目錄下的trail，發現有不少1.5k 的文件，說明傳輸的文件都沒有數據。那咱們就找到一個不是1.5k的看着正常的trail文件的最後一個（也就是出問題之後）。

首先查看目標端的info repxxx信息，

./ggsci

info repxxx* --->能夠查看到seqno ,還有rba. 咱們此次能夠看到seqno,rba都一致了，也就是都應用了。

info repxxx1,detail -->能夠查詢到 ogg_checkpoint表。

查詢下select max(xx傳輸過來的scn列), max(實際應用的scn列) from odc.ogg_checkpoint。這兩個max裏面的列，我忘了。經過查詢，這兩個列是一致的。

將數值記錄下來。若是目標端有斷裂，這個最大值可能不一致。咱們選擇的時候選擇這裏面全部不一致的最大值裏面的最小值。以前咱們遇到過，目標端trail文件都損壞的狀況。