はじめに
2022年は「ジェネレーティブAI」の年でした。ChatGPTやStable Diffusionに代表されるように、生身の人間を相手にしているような自然な会話ができたり、質問に答えてくれたり、単語を入力するだけで画像を生成してくれるプロダクトに未来を感じなかった人はいないでしょう。今後、OpenAIや他の企業が提供するAIモデル(大量のデータを事前に学習することによって作られる、入力に対して出力を返すためのAIの仕組み)がより高性能になるにつれて、さらに大きな影響を社会に与えていくことは間違いありません。
ジェネレーティブAIの採用は、2010年代のモバイルとクラウドへの移行に次ぐ、大きなパラダイムシフトとなるでしょう。この記事では、AI系の新興プロダクトの動向とAI時代にプロダクトマネージャーはどう対応すべきかについて紹介していきます。
なお、筆者はサンフランシスコのスタートアップ企業「Glasp」の共同創業者兼プロダクトマネージャーをしており、海外のプロダクトマネジメントに関する「PM Library」というメディアも運営しています。
AI系の新興プロダクトの動向
ジェネレーティブAIの階層構造
各プロダクトの動向に入る前に、ジェネレーティブAIのレイヤー(層)について解説します。大きく分けると、ジェネレーティブAIのレイヤーは3層に分かれており、上からアプリケーションレイヤー、モデルレイヤー、クラウドプラットフォーム/ハードウェアレイヤーとなります(このレイヤー構成以外にも、分類方法が存在します)。この記事では、上記の分類方法を使用します。
用途 | アプリケーションレイヤー | モデルレイヤー |
---|---|---|
テキスト | マーケティングコンテンツ セールス(メール) サポート(チャット/メール) 一般的なライティング ノートテイキング |
OpenAI/GPT-3 DeepMind/Gopher Meta/OPT Hugging Face/BLOOM Cohere/Cohere Anthropic/Anthropic Allen Institute for AI/AI2 Yandex/YaLM 100B |
コード | コード生成 コードのドキュメント化 テキストからSQLへ Webアプリケーションビルダー |
OpenAI/GPT-3 Tabnine/Tabnine Amazon/CodeWhisperer |
画像 | 画像生成 コンシューマー/ソーシャル メディア/広告 デザイン |
OpenAI/Dall-E 2 Stability AI/Stable Diffusion Midjourney/Midjourney |
音声 | 音声合成 | Microsoft/VALL-E Google/AudioLM |
動画 | 動画編集/生成 | Microsoft/X-CLIP Meta/Make-A-Video Runway/Runway |
3D | 3Dモデル 風景 |
DreamFusion(※1) |
他 | ゲーム RPA 音楽 オーディオ 生物&化学 |
今後出てくる予定 |
(※1) Google ResearchとUniversity of California, Berkeleyの研究者によるプロジェクト。
一番上に存在するのがアプリケーションレイヤーです。AIのモデルを使い、インターフェースを通してユーザーとインタラクションするモバイルアプリやWebアプリケーションなどが該当します。実際に一般ユーザーが使えるものなので、見聞きする機会が一番多いでしょう。代表例として、GitHub Copilot(AIによるコード補完ツール)やJasper(AIライティングツール)が挙げられます。
中間に位置するのがモデルレイヤーです。このレイヤーは、実際にジェネレーティブAIを動かすためのAIモデルが該当します。代表例は、OpenAIのGPT-3、Stable Diffusion、Replicateなどです。GPT-3やStable Diffusionのようなモデルを用い、用途別にファインチューニングすることで、Jasperなどのアプリケーションを動かしています。
最下層に位置するのがクラウドプラットフォーム/ハードウェアレイヤーです。AIモデルを作る際に、大量のデータを処理する必要がありますが、それはこのレイヤーで行われています。詳細については、この記事では割愛します。
分野ごとのプロダクト
これまでにGPT-3やStable Diffusionを使用したプロダクトがたくさん登場してきました。早くからGPT-3へのアクセス権を得られていた企業の中には、すでに年間経常収益が1億ドルを超えたところもあります。現在のトレンドとこれまでの動向から、注目すべき企業・プロダクトを分野ごとにリストアップします。
さまざまな分野のジェネレーティブAI系のプロダクトの中でも、比較的うまくいっている分野が3つあります。それは、画像生成、コピーライティング、コードライティングです。また、今後注目すべき分野として、音声合成、ビデオ、3Dモデルが挙げられます。他にゲーム、RPA、音楽、音声、バイオ化学などにも利用されていくでしょう。
画像生成
この分野でのメジャープレイヤーは、Stability AIのStable DiffusionとOpenAIが提供するDALL・E2でしょう。先にモデルを提供したのはOpenAIでしたが、Stable Diffusionがオープンソースで公開されたため、Stable Diffusionを使ってさまざまなプロダクトが作られました。また、Appleは最近、Stable Diffusionモデル自体を最適化し、Apple独自のチップにチューニングされたOSを更新しました。これにより、アプリ開発者はStable Diffusionに簡単にアクセスできるAPIが提供されるかもしれません。
コピーライティング(コンテンツ生成)
この分野には、コピーライティングや、SEO対策用のコンテンツ作成、ライターのための文章添削や次の文章の提案などをするプロダクトがあります。代表的なのは、JasperやCopy.aiです。Jasperは2022年の年間経常収益が8000万ドルを超えました。
コードライティング
この分野は、GitHub Copilot、Tabnine、Codeiumなどが該当します。Codeiumは無料で使えますが、GitHub Copilotは月に10ドル、Tabnineは月に12ドルとすでにマネタイズが始まっています。また、1月24日の時点でGitHub Copilotを試した人が100万人を突破しました。
音声合成
この分野は、Fliki、Murf AIなどが該当します。また、Steve Jobsの声でPodcastを作ったpodcast.aiも有名になりました。上の3つの分野と比較すると、音声合成はまだ発展途上な印象を受けます。
ビデオ
この分野は、Runway、Synthesiaなどが該当します。Runwayはまだデモ段階ですが、Synthesiaはすでに使用できます。テキストから動画を作成できるようになれば、どのようなことが可能でしょうか?
3Dモデル
この分野は、GET3D、DeepMotionなどが該当します。Twitterには、すでにそれらのモデルを使って3Dモデルを生成している人が多々見受けられます。今後、映画やVR、ゲーム業界で使用される技術なので、今後の発展が楽しみな分野です。