カラクリは4月21日、PC操作を自律的に実行するCUA(Computer Use Agent)向け視覚言語モデル「KARAKURI VL2」を開発したと発表した。本モデルは経済産業省の生成AI開発支援プログラム「GENIAC」第3期の成果として開発され、モデルおよび独自開発の日本語PC操作ベンチマーク「OSWorld-JP v0.2」がオープンソースで公開されている。

KARAKURI VL2は80億パラメータの軽量設計を採用しており、企業のオンプレミス環境で動作させることが可能となる。機密性の高い顧客データや業務データを外部に送信することなく、セキュアな環境でPC操作の自動化を実現する点が特徴となる。
自社開発ベンチマークによる評価では、総合スコアでClaude Sonnet 4.6に及ばないものの、画像編集とメール操作の2領域で同モデルを上回る結果を出した。ネット上に存在しない実業務の操作パターンを合成データとして生成し学習に活用することで、特定業務において汎用モデルを上回る精度を実現している。また、ベースモデルと比較して複数アプリケーションの横断操作で約2.8倍のスコア向上を達成した。
同社のCPO(最高プロダクト責任者)である中山智文氏は、海外の汎用モデルと同じ土俵で戦うのではなく、日本の産業を支える現場の磨き上げをAIの知性に変えることを目指すと述べている。「業界特化」「独自データ」「自前運用」の3領域に特化し、特定のアプリケーション操作に絞ることで、80億パラメータの軽量モデルでも十分な精度が出せることを確認したとコメントしている。
現在公開されている主要なCUAモデルの多くは英語環境に最適化されており、日本語環境での客観的な評価基盤が十分に整備されていないという課題があった。カラクリはモデルだけでなくベンチマークもオープンソースで提供することで、国内のCUA研究コミュニティ全体における知見の蓄積と前進に貢献していく。
今後はKARAKURI VL2を基盤としたAIエージェントアプリケーションのサービス化を推進し、カスタマーサポート領域を起点に複数アプリケーション間の操作自動化へと対象を拡大する予定となる。
この記事は参考になりましたか?
- ProductZineニュース連載記事一覧
-
- カラクリ、ローカル環境で動作する軽量CUAモデル「KARAKURI VL2」をオープンソー...
- 顧客体験デザインを組織に根づかせるには? 白根英昭氏らが「CX経営」の実態を語る
- ユーザー行動から離脱を予測、Amplitudeが組み込み型「AI アシスタント」を提供開始
- この記事の著者
-
ProductZine編集部(プロダクトジンヘンシュウブ)
「プロダクト開発」にフォーカスしたオンラインメディアです。プロダクトマネージャーや、プロダクトマネージャーを目指す方をはじめ、チームメンバーや事業責任者、テックリードなど、プロダクト開発を「正しく」進めていきたいすべての人のために、プロダクトマネジメントに関するあらゆる知見をお届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です
この記事は参考になりましたか?
この記事をシェア
