SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

ProductZine Day&オンラインセミナーは、プロダクト開発にフォーカスし、最新情報をお届けしているWebメディア「ProductZine(プロダクトジン)」が主催する読者向けイベントです。現場の最前線で活躍されているゲストの方をお招きし、日々のプロダクト開発のヒントとなるような内容を、講演とディスカッションを通してお伝えしていきます。

ProductZine Dayの第3回。オフラインとしては初開催です。

ProductZine Day 2024 Summer

ProductZine Day 2024 Summer

ProductZineニュース

FastLabel、LLM開発用の高品質かつ権利クリアな日本語データセットの販売を開始

 FastLabelは、大規模言語モデル(LLM)開発用の高品質で権利クリアな日本語データセット販売サービスを、3月12日に開始した。

 日本国内における日本語でのLLM開発では、AIに学習させるための日本語で作成されたデータセットが少ない状況であり、LLMのデータセット作成プロセスには潜在的な著作権侵害や利用規約違反のリスクがあることから、自社でLLM開発用の日本語データセットを作成する動きもみられるものの、数千件から十数万件におよぶデータセットを作成しつつ、必要な品質を担保することは容易ではない。

 FastLabelでは、かねてよりLLM開発用の日本語データセット作成代行サービスを提供していたが、作成代行という形態のため細かなニーズに沿ったデータセットを提供できる一方で、データセット提供までに一定のリードタイムが必要になること、既存のデータセットを購入する場合よりもデータ1件あたりの価格が上がりやすいことがネックだった。

 今回、販売が開始される日本語データセットは、一般知識の回答、ユーザーに与えられた情報からの推論、文章の創作、メモ書きからのビジネス文書の清書といった、多様なシーンを想定したタスクを設定しており、それぞれのタスクについて幅広いジャンルの知識に基づいたデータセットとなっている。また、一般に正確性の要求が高い、健康などのジャンルについてはとりわけ高い品質基準を設けることによって、誤った情報が混入しないよう配慮する。

 提供するデータセットは、すべてFastLabelにてゼロから作成されているため、権利リスクがなく安心して使える。さらに、データの正確性や多様性に関する細かな品質管理基準を設定しており、データ作成工程、データ作成後の品質検査工程で基準への適合を担保している。また、今後はデータセットの品質に関する指標を数値で提供することも計画しているので、顧客による品質確認が困難な大量データであっても、安心して利用可能な仕組みを整えていく。

 創業以来培ってきた教師データ作成のノウハウ、独自に開発したLLMなどを活用した原価低減活動を継続的に実施しているので、低価格でのデータセット提供を実現している。

関連リンク

この記事は参考になりましたか?

ProductZineニュース連載記事一覧

もっと読む

この記事の著者

ProductZine編集部(プロダクトジンヘンシュウブ)

「プロダクト開発」にフォーカスしたオンラインメディアです。プロダクトマネージャーや、プロダクトマネージャーを目指す方をはじめ、チームメンバーや事業責任者、テックリードなど、プロダクト開発を「正しく」進めていきたいすべての人のために、プロダクトマネジメントに関するあらゆる知見をお届けします。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この記事は参考になりましたか?

この記事をシェア

ProductZine(プロダクトジン)
https://productzine.jp/article/detail/2469 2024/03/14 13:30

おすすめ

アクセスランキング

アクセスランキング

イベント

ProductZine Day&オンラインセミナーは、プロダクト開発にフォーカスし、最新情報をお届けしているWebメディア「ProductZine(プロダクトジン)」が主催する読者向けイベントです。現場の最前線で活躍されているゲストの方をお招きし、日々のプロダクト開発のヒントとなるような内容を、講演とディスカッションを通してお伝えしていきます。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング