FastLabelは、大規模言語モデル(LLM)開発用の高品質で権利クリアな日本語データセット販売サービスを、3月12日に開始した。
日本国内における日本語でのLLM開発では、AIに学習させるための日本語で作成されたデータセットが少ない状況であり、LLMのデータセット作成プロセスには潜在的な著作権侵害や利用規約違反のリスクがあることから、自社でLLM開発用の日本語データセットを作成する動きもみられるものの、数千件から十数万件におよぶデータセットを作成しつつ、必要な品質を担保することは容易ではない。
FastLabelでは、かねてよりLLM開発用の日本語データセット作成代行サービスを提供していたが、作成代行という形態のため細かなニーズに沿ったデータセットを提供できる一方で、データセット提供までに一定のリードタイムが必要になること、既存のデータセットを購入する場合よりもデータ1件あたりの価格が上がりやすいことがネックだった。
今回、販売が開始される日本語データセットは、一般知識の回答、ユーザーに与えられた情報からの推論、文章の創作、メモ書きからのビジネス文書の清書といった、多様なシーンを想定したタスクを設定しており、それぞれのタスクについて幅広いジャンルの知識に基づいたデータセットとなっている。また、一般に正確性の要求が高い、健康などのジャンルについてはとりわけ高い品質基準を設けることによって、誤った情報が混入しないよう配慮する。
提供するデータセットは、すべてFastLabelにてゼロから作成されているため、権利リスクがなく安心して使える。さらに、データの正確性や多様性に関する細かな品質管理基準を設定しており、データ作成工程、データ作成後の品質検査工程で基準への適合を担保している。また、今後はデータセットの品質に関する指標を数値で提供することも計画しているので、顧客による品質確認が困難な大量データであっても、安心して利用可能な仕組みを整えていく。
創業以来培ってきた教師データ作成のノウハウ、独自に開発したLLMなどを活用した原価低減活動を継続的に実施しているので、低価格でのデータセット提供を実現している。
この記事は参考になりましたか?
- この記事の著者
-
ProductZine編集部(プロダクトジンヘンシュウブ)
「プロダクト開発」にフォーカスしたオンラインメディアです。プロダクトマネージャーや、プロダクトマネージャーを目指す方をはじめ、チームメンバーや事業責任者、テックリードなど、プロダクト開発を「正しく」進めていきたいすべての人のために、プロダクトマネジメントに関するあらゆる知見をお届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です
この記事は参考になりましたか?
この記事をシェア