技術の積み重ねでたどり着いたマルチモーダルRAG
マルチモーダルRAGの歴史を語るにあたり、鈴木氏は、先に挙げた構成要素について、1つずつ歴史を振り返った。
画像の特徴量抽出
かつて画像の特徴量抽出は目視による手作業で行っていた。その後、2004年にSIFTが登場し、画像の特徴量(キーポイント)を抜き出せるようになった。2005年にはHOGが登場。これにより輪郭を特徴量として抜き出せるようになった。そして2012年のCNNによってディープラーニングの研究が盛んとなり、2020年にはGoogleのViT(Vision Transformer)が登場した。最後は2021年。Open AIの出したCLIPで画像とテキストが結びつき、マルチモーダルRAGの実現に大きく近づいた。
テキストの特徴量抽出
最初は1972年のtf-idfにまでさかのぼる。これは単語の頻出度合いによって、その重要度を測るものだが、この技術が応用されて1994年にBM25が登場する。さらにその後進展したディープラーニングの流れを受け、2013年にはベクトル化の技術を取り入れたWord2Vecが登場。そして2018年、GoogleのTransformerのエンコーダをベースにしたBERTへとつながった。
テキストの生成
2013年のディープラーニングのブレイクスルーによって知名度を上げたRNNだが、実はその歴史は古く、1986年に登場していた。とはいえ、アーキテクチャそのものは存在していたものの、メモリやコンピューティングのリソース不足から実現には至っていなかったようだ。1997年にはLSTMが登場。2013年NN、2017年Transformer、2021年CLIPへと続く。
Open AIのモデル
Open AIのモデルは、2018年GPT、2019年GPT-2、2020年GPT-3、2022年ChatGPTとエンベディングモデルのada-002、そして2023年GPT-4/GPT-4vという変遷してきた。
「これらのピースがすべてつながって、マルチモーダルRAGに結びついている」(鈴木氏)