SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

ProductZine Day&オンラインセミナーは、プロダクト開発にフォーカスし、最新情報をお届けしているWebメディア「ProductZine(プロダクトジン)」が主催する読者向けイベントです。現場の最前線で活躍されているゲストの方をお招きし、日々のプロダクト開発のヒントとなるような内容を、講演とディスカッションを通してお伝えしていきます。

ProductZine Dayの第2回開催です。

ProductZine Day 2024 Winter

ProductZine Day 2024 Winter

「Developers Summit 2024」レポート(AD)

AIエンジニア必見! 実践から見る、マルチモーダルRAG最前線

【16-C-5】マルチモーダルRAGの社会実装への技術アプローチ

 昨今、注目が高まっているマルチモーダルRAG(Retrieval-Augmented Generation)。ギブリーの法人向け生成AI活用ツール「法人GAI」では、すでにテキストベースのRAGが実装されているが、今後マルチモーダルRAGへとさらなる進化を遂げるべく、目下、技術開発に取り組んでいる最中だ。そのようななか、Developers Summit 2024(デブサミ2024)では同社AIエンジニアの鈴木岳之氏と、取締役 兼 株式会社Resola 代表取締役社長 奥田栄司氏が登壇。マルチモーダル技術の進化の歴史を振り返るとともに、マルチモーダルRAGの具体的な応用事例について語った。

編集部注

 本稿は、CodeZineに掲載された、ソフトウェア開発者向けカンファレンスDevelopers Summit 2024(デブサミ2024)のセッションレポートを転載したものです。プロダクトづくり、プロダクトマネジメントに近しいテーマを選りすぐってお届けします。

マルチモーダルRAGとは何か

 「HR Tech」「Marketing DX」「Operation DX」と、異なるDX領域で複数のSaaSを展開しているギブリー。2023年4月には、企業が安心・安全にChatGPTを利用できる法人向けGPTプラットフォーム「法人GAI」もリリースしており、認知度が高まっているところだ。

 今回のテーマであるマルチモーダルRAGとは、そもそも何なのか。これを解説する前にRAGとは何かについて、鈴木氏は次のように語った。「日本語訳すると検索拡張生成。LLMだけでは足りないようなドキュメントや外部情報を取り込むことでハルシネーションを抑える効果がある」。

株式会社ギブリー AIエンジニア 鈴木岳之氏
株式会社ギブリー AIエンジニア 鈴木岳之氏

 RAGの実装フローとしては、まず外部テキストをベクトル化してデータベースに入れておく。その後、実際にユーザーからクエリが入力されると、ベクトルの中で類似度の高いものとクエリそのものをインプットとして、GPT4(LLM)に入れ、アウトプットをユーザーに返す。

 次に、マルチモーダルとは何か。これは、複数のデータ形式(ドキュメント・画像・動画・音声・表など)が混在している状態を指す。鈴木氏はマルチモーダルの例として、以下の図(出典:労働力調査の結果(総務省統計局))を示した。

テキスト・表・図の3つのモーダリティを持ったマルチモーダルPDFの例
テキスト・表・図の3つのモーダリティを持ったマルチモーダルPDFの例

 これらを踏まえて、マルチモーダルRAGとは何かをフローで見ると、最初に外部テキストを取り込んでいたところに画像や表といったものが加わることで、インプットされる場所がGPT4からGPT4v(マルチモーダルLLM)へと置き換わる。

 マルチモーダルRAGの構成要素は、「画像の特徴量抽出」「テキストの特徴量抽出」「OCR/Document Layout Analysis/Table to Text」「テキスト生成」「Open AIのモデル」となっている。

 鈴木氏の解説を受け、「お客様から『PDFを読み込んで回答させたい』という依頼をよくいただくが、画像や表が多いものは精度が低いと感じていた。マルチモーダルRAGに対応できれば、こうした問題も解決できそうだ」と感想を述べた奥田氏。加えて、「構成要素を見てみると、昔からある技術も使われているようだが、マルチモーダルRAGの技術が発展してきた背景には、どんなブレイクスルーがあったのかを知りたい」と語り、次に話を進めた。

株式会社ギブリー 取締役 兼 株式会社Resola 代表取締役社長 奥田栄司氏
株式会社ギブリー 取締役 兼 株式会社Resola 代表取締役社長 奥田栄司氏

次のページ
技術の積み重ねでたどり着いたマルチモーダルRAG

関連リンク

この記事は参考になりましたか?

「Developers Summit 2024」レポート連載記事一覧

もっと読む

この記事の著者

野本 纏花(ノモト マドカ)

 フリーライター。IT系企業のマーケティング担当を経て2010年8月からMarkeZine(翔泳社)にてライター業を開始。2011年1月からWriting&Marketing Company 518Lab(コトバラボ)として独立。共著に『ひとつ上のFacebookマネジメント術~情報収集・人脈づくり...

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

提供:株式会社ギブリー

【AD】本記事の内容は記事掲載開始時点のものです 企画・制作 株式会社翔泳社

この記事は参考になりましたか?

この記事をシェア

ProductZine(プロダクトジン)
https://productzine.jp/article/detail/2506 2024/04/10 12:00

おすすめ

アクセスランキング

アクセスランキング

イベント

ProductZine Day&オンラインセミナーは、プロダクト開発にフォーカスし、最新情報をお届けしているWebメディア「ProductZine(プロダクトジン)」が主催する読者向けイベントです。現場の最前線で活躍されているゲストの方をお招きし、日々のプロダクト開発のヒントとなるような内容を、講演とディスカッションを通してお伝えしていきます。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング