楽天グループは、Mixture of Experts(MoE)アーキテクチャを採用した新しい日本語大規模言語モデル(以下、LLM)「Rakuten AI 2.0」と、楽天初の小規模言語モデル(以下、SLM)「Rakuten AI 2.0 mini」の2つのAIモデルを、12月18日に発表した。両モデルはAIアプリケーションを開発する企業や技術者などの専門家を支援することを目指しており、来春をめどにオープンソースコミュニティに向けて公開予定となる。
「Rakuten AI 2.0」は、同社が2024年3月に公開した、日本語に最適化した高性能なLLMの基盤モデル「Rakuten AI 7B」を基に開発した8x7BのMoE基盤モデル。このLLMは、8つの70億パラメータで構築した「エキスパート」と呼ばれるサブモデルで構成されている。トークンはルーターによって選定された最も適した2つの「エキスパート」に処理される。それぞれの「エキスパート」とルーターはともに高品質な日本語と英語の言語データを用いた継続的な学習を行っている。
同社が初めて開発したSLM「Rakuten AI 2.0 mini」は、15億パラメータの基盤モデル。このSLMは、内製の多段階データフィルタリング、アノテーションプロセスを通じてキュレーションおよびクリーンアップされた広範な日本語と英語のデータセットで最初から学習されており、テキスト生成において高性能かつ高精度な処理を実現している。
「Rakuten AI 2.0」は、入力トークンに対して最も関連性の高い「エキスパート」を動的に選択する高度なMoEアーキテクチャを採用しており、計算効率と性能を最適化する。このLLMは8倍規模の高密度モデルに匹敵する性能を持つが、消費計算量で1/4程度に抑えることが可能。
同社は、「LM-Harness」を使用して日本語と英語の能力測定を行うモデル評価を実施した。リーダーボードは、対象言語の特性を反映した広範な自然言語処理および理解タスクに基づいて言語モデルを評価している。「Rakuten AI 2.0」の平均日本語性能は、「Rakuten AI 7B」と比較して8つのタスクで62.93から72.29に向上した。
「Rakuten AI 2.0 mini」は、コンパクトなモデルのためモバイル端末に導入でき、データをリモートサーバーに送信することなく自社運用することが可能となる。汎用アプリケーションに使用される大規模モデルと比べ、同SLMはプライバシーの保護、低遅延、コスト効率が求められる特定のアプリケーションに適した形で活用できる。
同社は最新のLLMおよびSLMをオープンなモデルとして提供することで、オープンソースコミュニティへの貢献を目指すとともに、日本語LLMのさらなる発展に寄与していく。また、自社で最新のLLMモデルの開発を継続することにより知見やノウハウを蓄積し、「楽天エコシステム(経済圏)」の拡大に取り組んでいく。
- 関連リンク
この記事は参考になりましたか?
- この記事の著者
-
ProductZine編集部(プロダクトジンヘンシュウブ)
「プロダクト開発」にフォーカスしたオンラインメディアです。プロダクトマネージャーや、プロダクトマネージャーを目指す方をはじめ、チームメンバーや事業責任者、テックリードなど、プロダクト開発を「正しく」進めていきたいすべての人のために、プロダクトマネジメントに関するあらゆる知見をお届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です
この記事は参考になりましたか?
この記事をシェア