MSPからPagerDutyへの移行でMTTA(平均確認時間)は約30〜50%改善し、コスト削減も実現
PagerDutyの導入は、ちょうど林氏が入社したころにSREチームで検討していた。PagerDuty導入の背景として、当時はインシデント対応をMSP(マネージドサービスプロバイダ)企業に委託していたものの、柔軟な対応ができないという課題があったからだ。
「MSP事業者の場合、たとえば、『今日はほかに用事があるので電話は受けられない』『休みなので対応できない』といった変更をいちいち連絡する必要があり、個々の対応もチケット制で煩雑でした。SNSなどを通じてPagerDutyの存在を知り、導入を検討することにしました。当時からPaerDutyはインシデント管理のサービスとして高いシェアを持っていたため、PagerDutyを導入するか、MSP事業者への委託を継続するかの二択でした」(林氏)
PagerDutyへの移行によって、MTTA(平均確認時間)は約30〜50%程度の改善を実現した。MSP事業者に委託していたころは、MSPの担当者側で、通知を受けてから手順書に従った判断するまでに15分〜20分かかっていたが、10分未満に短縮している。また、コスト面でもインパクトがあった。MSP事業者の料金体系がサーバー台数に応じたものだったからだ。一方、PagerDutyはアカウント数に応じた料金のため、当時SREセクションの数名だけの利用となったことで、大きなコスト削減を実現した。
インシデントの社内対応への移行の背景には、3社の経営統合もあった。各社で展開するブランドがあり、システムもそれぞれ異なる。インシデント自体も増加し、対応のための発報のやり方などもブランドのポリシーによって変わるため、きめ細やかなサポートが必要となる。
「夜中でもすぐに対応してほしいというチームもあれば、システムが安定しているのでメッセージ通知のみで良いというチームもあります。多様なルールを整理してPagerDutyで最適化を続けています」(林氏)