言語生成AIの社会実装を進める東京大学松尾研究室発・AIスタートアップのELYZAは、Meta Platforms, Inc.(以下Meta)が開発した大規模言語モデル(LLM)である「Llama 2」に対し日本語による追加事前学習を行い、商用利用可能な70億パラメータの日本語LLM「ELYZA-japanese-Llama-2-7b」を開発、一般公開した。
同モデルは性能評価の結果1750億パラメータを有する「GPT-3.5(text-davinci-003)」に匹敵するスコアが算出されており、日本語の公開モデルの中では最高水準の性能となっている。また同モデルを用いたchatUI形式のデモもHugging Face hub上で公開されているほか、推論用コード、性能評価用のデータセットと具体的な評価結果シートも合わせて公開されている。
「Llama 2」は、2023年7月18日にMetaが公開した英語ベースの大規模言語モデル。先に公開された「LLaMA」が研究用途に限定されていたのに対し「Llama 2」は商用利用も可能となっている。公開されているモデルとしては性能が高いことからOpenAIの「GPT-4」やGoogleの「PaLM」などのクローズドなLLMと競合する形で、英語圏ではすでにオープンモデルのデファクトスタンダードとなりつつある。
サイズは70億、130億、700億の3種類で、いずれのモデルも教師ありファインチューニング(Supervised Fine-Tuning、SFT)および人間からのフィードバックに基づいた強化学習(Reinforcement Learning from Human Feedback、RLHF)を施したchatモデルを同時に公開している。
現在国内では複数の企業が独自に日本語LLMの開発に取り組んでいるが、2兆トークンものテキストで学習されたMetaの「Llama 2」などと比較すると、まだまだ小規模なものにとどまっているのが現状。その背景には、計算リソースの不足や日本語で利用できるテキストデータの少なさなどがある。また一からLLMの事前学習を行うには膨大なコストがかかるため、研究を行えているのは一部の大企業や研究機関のみとなっている。
そのような中ELYZAでは、英語を始めとした他の言語で学習されたLLMの能力を日本語に引き継ぎ、日本語で必要な学習量を減らすことで日本語LLMの研究開発を加速させることができるのではないかと考え、多言語LLMの日本語化に注目してきた。
今回はそのプロジェクトの成果の一つとしてMetaの「Llama 2」をベースに日本語の能力を向上させたモデルの開発に成功したため、その一部を公開することとした。また近日中に公開予定の技術ブログでは、「Llama 2」を日本語化する中で得られた知見やノウハウについての詳細を共有する予定。
ELYZAでは、モデルやノウハウの公開を通して、研究室やスタートアップ、個人などでも日本語LLMの研究開発に取り組める土壌を整えることで日本語LLMの研究を加速させることを目指している。
「ELYZA-japanese-Llama-2-7b」は、Metaの「Llama-2-7b-chat」に対して約180億トークンの日本語テキストで追加事前学習を行ったモデル。学習に用いたのは、OSCARやWikipediaなどに含まれる日本語テキストデータ。複数のバリエーションがあり、ELYZA独自の事後学習を施した「ELYZA-japanese-Llama-2-7b-instruct」や、日本語の語彙追加により高速化を行った「ELYZA-japanese-Llama-2-7b-fast-instruct」が存在する。またライセンスは「LLAMA 2 Community License」に準拠しており、「Acceptable Use Policy」に従う限りにおいては研究および商業目的での利用が可能。
この記事は参考になりましたか?
- この記事の著者
-
ProductZine編集部(プロダクトジンヘンシュウブ)
「プロダクト開発」にフォーカスしたオンラインメディアです。プロダクトマネージャーや、プロダクトマネージャーを目指す方をはじめ、チームメンバーや事業責任者、テックリードなど、プロダクト開発を「正しく」進めていきたいすべての人のために、プロダクトマネジメントに関するあらゆる知見をお届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です
この記事は参考になりましたか?
この記事をシェア