今回のサーバ障害は何が一番の原因だったかというと、フェイルオーバーの設定ミスにあったような気がします。
いつもなら何とかリカバーできる範囲でした。
Route53でHealthCheckをすると、世界に分散するAmazonのサーバから検査を行ってくれるのですが、GEO-DNSと組み合わせていると、日本国内のみ落ちているという障害の場合は、HealthCheckから見ると全世界のごく一部が落ちているという数値が検出されます。
それを考えずに、アラートを出すタイミングを「Average」が一定よりも小さくなったらという設定にしてしまっていたために検知漏れが発生してしまいました。
ごく一部でも障害が起きていたら対応したいわけですから「Minimum」が一定よりも小さくなったらアラートを出すという設定にすべきでした。
考えてみれば当たり前で、基本的なところですが、うっかりしていました。
ご迷惑をおかけしまして申し訳ありませんでした。
2015年09月08日
サーバダウンの検知ミス
posted by つの at 11:29| 日記
■雀荘戦ルールについて■
場千五(1本場1500点)を採用しています
東西場を採用しています(西も場風)