連載で取り上げる企業と着目点
本連載で、主に対象とするスタートアップは、ある程度米国でのビジネスの地歩が固まり、日本を含む海外展開を視野に入れ始めたステージを想定している。単なる企業やソリューションの紹介にとどまらず、それらが注目されるに至った背景――米国でのビジネストレンドの変遷や技術的進歩――もあわせてお伝えすることで、読者の皆さんのビジネスにおけるヒントになれば幸いだ。
Zebrium ―― エンジニア永遠の課題「障害対応」に挑む
「シリコンバレー直送便」第3回で取り上げる企業は、シリコンバレー(Santa Clara)に本社をかまえるソフトウェア障害解析の自動化ソリューションを開発するスタートアップのZebriumである。本稿の趣旨である「日本進出を計画するステージ」よりはもう少しアーリーステージであるが、エンジニアやプログラマの読者にとっても興味深いサービスを提供するスタートアップであるため、今回紹介させていただきたい。
"エンジニア永遠の課題"にAIで切り込む
どれほどクラウドなどのインフラ環境が充実し、どれほどAIなどによりソフトウェアが高度化しようとも(あるいはそれゆえにこそ、というシニカルな見方もあるかもしれない)、システム開発や運用に従事するエンジニアが決して逃れられない問題がある。それが「障害対応」である。先日もAWSの障害に起因する広範囲にわたるシステムダウンが発生したが、こうした商用環境の障害解析というのは、エンジニアが経験する仕事の中でも最も緊迫したものと言っていい(注1)。早期復旧すべく時間との戦いのなか、膨大なエラーを記録したログから原因を突き止めるのはタフな仕事である。著者も長くデータベースを専門とするエンジニアであったため、こうした障害対応を多く経験したが、今でも思い出すだけで掌に汗をかく(本稿の主題ではないので詳細には立ち入らないが、データベース障害というというのはすなわち重大な障害を意味する)。
Zebriumは、ミドルウェアやソフトウェアが出力する多種多様なログを読み込み、機械学習によって自動的に障害に関係するログの絞り込み、異常なパターンの発見、および重大度の判定を行う。ログ解析を支援するツールならばすでに多く存在するが、Zebriumのユニークな点は、ログが必ずしも構造化されている必要はなく、テキストデータであれば柔軟に読み込むことが可能なことである。たとえばヘッダ情報のないログであってもデータの内容から自動的にそのカラムの意味を判別する。こうした自動化によって、Zebriumは極力人間の助けなしに異常を検知し、障害の早期解決に寄与することを目的にしている。
今回は、同社のマーケティング責任者を務めるGavin Cohen氏にインタビューに対応していただいた。
注1
2019年8月23日、AWSの空調設備の障害をきっかけに、多くのWebサービスで数時間にわたる障害が発生した。