本記事は、ソフトウェア開発者向けのオンラインメディア「CodeZine(コードジン)」からの転載記事です(オリジナル記事)。
クラウドはもちろん、物流を支えるオンプレミス環境にPagerDutyを活用
オイシックス・ラ・大地は、食品宅配のサブスクリプションを主な事業としており、有機野菜や特別栽培の野菜、できる限り添加物を使用せずに作った加工食品などを取り扱っている。社名からイメージできるように、複数の企業が統合してできた企業だ。2017年にオイシックス株式会社と株式会社大地を守る会が統合し、2018年にはらでぃっしゅぼーや株式会社が加わった。この経営統合最中である2018年1月からPagerDutyを利用しており、林氏も同じころ入社している。
同社の従業員は2000人ほどで、そのうちエンジニア職は約100人。林氏が所属するシステム基盤部 SREセクションには2023年1月現在11人のメンバーが在籍している。同社のエンジニア組織のカルチャーについて林氏は「セクションごとにかなり裁量があり、各セクションが掲げた理念に向かって仕事をしています。SREセクションは、社内で運用するシステムの信頼性に焦点を置き、より良くしていくことをミッションとしています」と語る。
SREセクションの業務の一つがシステムの可視化。どこでどのような事象が起きて、今後どのように推移していくか、現在の状態は良好かどうかをテクノロジーによって可視化する。もう一つが自動化による効率化だ。人の手で行う繰り返し業務をソフトウェアで自動化する。これにはインシデント対応もあり、PagerDutyを使った自動化、効率化も行われている。林氏自身はマネージャーとして、システム全体を管理し、メンバーのフォローも行うなど、チームがうまく動けるような活動をしている。
オイシックス・ラ・大地のITインフラは、オンプレミスとパブリッククラウドであるAWSのハイブリッド環境となっている。システム特性について林氏は「オンプレミスではお客様に食品をお届けする物流拠点のネットワーク機器が稼働しています。一方でパブリッククラウドではECサイトのシステムなどをAWSに置いています。サーバーは600台ほど運用しており、各システムは複数のモニタリングツールによって監視し、それらからのアラートをPagerDutyで受けてインシデント対応を行っている形です。PagerDutyには豊富なインテグレーションの機能があり、大抵の監視ツールを使っていてもオンプレミスやクラウドに関係なく連携ができ、適切な対応につなげられる安心感があります」と語った。
システム運用体制上、PagerDutyが発するアラートを受けるのは、SREセクションの11人に加え、アプリケーション開発者やブランドごとのエンジニアなども含めた40人ほど。電話でのコール(オンコール)に待機するのはSREチームの8人から週次でプライマリ、セカンダリの2人が割り当てられる。なお、一部のアプリケーションについては直接開発者に割り当てており、コンテナ化され担当範囲が明確な場合があるからで、今後もオンコール先の分割と最適化を進めていく予定だ。
モニタリングツールにおいてどのチームにどんなアラートを出すかを整理しPagerDutyを通じて発報する。林氏は「PagerDutyの優れた点がAPIキーごとに通知先をたくさん並べられることです。モニタリングツール側で切り分けを設定して、どこに通知するかをコントロールしています」と説明した。