生成AI活用リスクの打開策、データセントリックアプローチ
これまで挙げたリスクに対してRAG(Retrieval-Augmented Generation)が解決の一助となると期待できる。RAGは検索を組み合わせるので信ぴょう性についてなら、ある程度は役立つかもしれない。しかし不確実性が高い質問、またはマイナーな領域や複雑な質問だと、まだ生成AIは正確に回答することは難しい。ほかのリスクに対してだと、RAGはほとんど無力だ。
ではどのようにすればプロダクトをリスクから守ることができるか。その問いに対して、久保氏はRAGの補完として、データセントリックアプローチを挙げる。RAGで使用するデータの品質を高めることでリスクを低減する手法となる。モデルの性能ではなく、データの品質を高めるほうに着目するという考え方だ。
品質が高いデータというのはどういうものか。データの信ぴょう性が高く、カバレッジが広く、有害性やバイアスが除去されていて、知的財産権侵害の恐れがなく、機密情報が含まれていない……などが挙げられる。とはいえ「それが簡単にできるならやってるよ!」と言いたくもなる。だが生成AIが登場したことで、このデータ品質チェックに生成AIを活用することが有望視されている。
まず、利用されているデータにリスクがないかLLMで判断する。メトリクスをもとにチェックすべきドキュメントを洗い出し、対象となるドキュメントをバッチで更新する。そしてナレッジベースを更新するプロセスを繰り返すことで、データの品質を高めていく。

現時点ではデータセントリックアプローチについては、先述したリスクを低減するだけではなく、オフラインでの品質検証、オンライン推論のコスト低減、バッチ推論によるコストメリットなどがある。ただ、最新のデータ反映に時間がかかることや、コンテンツ量が多いとコストがかさんでしまうことを考慮する必要がある。久保氏は「データセントリックアプローチに100%寄せる必要はなく、ユースケースに応じて適用の度合いを検討する必要があります」と話す。実践している事例を見てみよう。
事例5:dely(デリー)
レシピ動画プラットフォーム「クラシル」では、ユーザーが投稿するレシピが8万件ほど蓄積されていた。レシピは自由記入なので表記が統一されておらず、UXやSEOの観点で課題があった。そこでAmazon BedrockのClaudeで解析してデータを構造化し、Amazon Aurora MySQLに取り込むことでUI/UXを改善し、内部リンクを強化できた。表記の統一でUX向上、レシピページの利用者数が120%増加、コンテンツあたりの自然流入効率が290%改善するなど、データ品質向上でサービスそのものの価値を高めることができた。
事例6:JPX総研
日本取引所グループの子会社となるJPX総研では、金融商品市場に関係するデータ・インデックスサービスなどを提供している。TDNetで開示される書類は年間で14万件、110万ページもあり、ユーザーが必要な情報を探し当てるのが困難だった。そこでAmazon BedrockのClaudeを活用して、適時開示文書の文章からタグを生成し、関連するキーワードを自動付与したところ、ユーザビリティを格段に向上させることができた。
事例7:Amazon
Amazonでは、商品レビューが大量に投稿されている。レビューのポイントがつかめる要約 (Review highlights)をバッチで生成し、逐次更新している。Amazon SageMaker Batch TransformとAWS Inferentia2チップでデータの前処理を高速に行い、小型のLLMでも十分に信ぴょう性の高い要約を生成している。データ品質を高めることでモデルへの依存度を減らせている事例となっている。
生成AIの効果、コスト、リスクについてモニタリングすべき指標と手段
これまで生成AIについてRAGやデータセントリックアプローチについて述べてきたが、適切なアプローチをとるにはまず現状把握が必要になる。効果、コスト、リスクについて、どのような指標をモニタリングすればいいかを考えてみよう。

効果については、入力時間の短縮、データレコード・アクティブユーザー増加、コンバージョンレートといった形で測定できる。
コストについては、ユーザー側は待ち時間や表示エラー数をモニタリングする。AWS X-Rayが有効だ。システム側は推論コストや消費トークン数が対象となり、Amazon Bedrock Model Invocation Loggingを使えば対象データをAmazon Cloud WatchやS3に格納できる。
リスクについては、Amazon Bedrock Guardrailsで対象のフィルターを使うことでリスクの検知に役立てることができる。またバッチ評価ならAmazon Bedrock Model Evaluationで検索単体、あるいは検索と生成に対して評価できる。なおどちらも2025年3月時点では日本語未対応だ。
最後に久保氏は「生成AIのリスクは発現すると大きな影響を与えるものが多いです。長期間、生成AIを活用し、価値を向上していくにはリスクのコントロールが不可欠です。そのなかでも推論時に使われるデータ品質向上はリスクのコントロールに有効な手段となります。いま開発に携わる私たちのリスクに対する姿勢と対応がこれからの生成AI活用に影響を与えると考えると、大きな責任をおっていると感じています。これがさまざまな議論のきっかけになればうれしいです」と呼びかけた。
本番業務・サービスで定量的効果が得られた生成AI事例に関心ある方へ!
AWSでは生成AI事例集をWebサイトで無料公開しています。効果が得られるユースケースごとに体系的にまとめていますので、ぜひ生成AIの活用検討にお役立てください。
AWSの生成AIポータルサイトからダウンロードできます。