CA ARCserve Replication/HA(以下、ARCserve RHA)を使用していて、スイッチバック処理(スイッチオーバー後手動で元の状態に戻す処理)を実行した時に、すぐにアクティブが切り替わらずにスイッチバックに思いのほか時間がかかることがあります。
思いの外というのは、具体的には30分以上です、一体何故こんなに時間がかかるのでしょうか?
レジュメ
スイッチバック処理に30分以上異様に時間がかかる原因・理由。ARCserve RHA
構成環境:
- ARCserve RHA r16
- ファイルサーバー(ファイル共有)に対しレプリケーション構成を組んでいる
- スイッチオーバーするとOSが再起動し実コンピュータ名が切り替わる設定
スイッチバック処理を実行すると、すぐにマスタとレプリカともに実コンピュータ名を切り替えるために、Windowsの再起動が走るはずなのですが、全然Windows再起動がかかる様子がありませんでした・・・一体何故!?
結論。Windowsサービスを停止出来ずに30分のタイムアウトを待ったため
結論としては、スイッチバック処理を実行した時、今回のレプリケーション構成の対象となっているWindows共有サービスが停止処理に時間がかかってしまっていたために時間がかかっていました。
スイッチバック処理ではレプリカのWindows共有サービスを停止するようにWindowsへ依頼をし、Windows共有サービスが停止されるまで待ちます。
スイッチバック処理に時間が掛かったのは、レプリカサーバのWindows共有サービスの停止を待っていましたが、30分待機しても停止しなかった為です。
そのタイムアウト30分後に、ARCserve RHAはスイッチオーバを強制的に進め、Windows OSの再起動を開始したという流れです。
ARCserve RHAのスイッチバック処理には何分の時間を見込めば(予定)いいのか?
今回、レプリカサーバのWindows共有サービス(lanmanserver)が停止しなかったことが、スイッチオーバ処理に時間が掛かった原因でした。
サービス停止に最大30分のタイムアウトがあったとすると、その後Windows OSの再起動が入るので、スイッチバック作業には最大1時間くらいは時間がかかる可能性があります。
「実行ボタンを押したけど本当にARCserve RHAは動いているの?」と思っても、30分以上は待って下さい。
また今回のWindows共有サービスを止められなかった要因としては、
推測ではありますが、Windows共有サービスを何らかのアプリケーションで利用中だった為にWindows共有サービスが停止に応答しなかったと考えます。
つまり、スイッチバック作業を行う時間は、業務でほとんど人が利用していない時間帯が好ましいということですね。
サービスを停止するまで待つ30分のタイムアウトは誰のタイムアウト値仕様?
ARCserve RHA側のタイムアウト値です。
例えば、Windowsの「サービス」マネージャーでは、サービスのデフォルト値で12秒でサービス停止のタイムアウトとなります。かなり短いですね。
上記は、windows server 2008 R2の画面です。