新しいEmbedding Model が登場!性能や価格面でのアップデート
今日は、Embedding Model(埋め込みモデル)について、Open AI社からアップデートがありましたのでご紹介したいと思います。
目次
Embedding (埋め込み)とは?
Embedding(埋め込み)とは、文や単語、文字などのテキストデータを高次元空間上における数値ベクトルに変換することです。
この空間上では、意味的に近い単語は互いに近い位置に配置され、遠い単語は遠くに配置されます。
Embedding Model(埋め込みモデル)を使って、コンテンツをベクトル化することでコンテンツの関係性を理解しやすくなり、検索の精度が向上します。この技術はChatGPTやAssistants APIなどの知識検索、RAGなどの開発者ツールで活用されています。
新しいEmbedding Model(埋め込みモデル)
text-embedding-3-smallとtext-embedding-3-largeという2つのモデルに注目します。これらのモデルは、text-embedding-ada-002という前世代のモデルと比べて、以下のような特徴があります。
text-embedding-3-small
text-embedding-ada-002よりも性能が向上し、価格が安くなりました。
性能面では、多言語検索のベンチマーク(MIRACL)では、平均スコアが31.4%から44.0%に、英語タスクのベンチマーク(MTEB)では、平均スコアが61.0%から62.3%に上がっています。
価格面では、text-embedding-ada-002と比べて5倍安くなっています。
text-embedding-3-large
最大3072次元の埋め込みを作成できる最高性能のモデルです。
新しい大型の埋め込みモデルで、最大3072次元の埋め込みを作成できます。
text-embedding-3-largeは、text-embedding-ada-002よりも性能が大幅に向上しており、MIRACLでは、平均スコアが31.4%から54.9%に、MTEBでは、平均スコアが61.0%から64.6%に上がっています。
その他アップデート
GPT-3.5 Turbo
投入価格は50%、出力価格は25%の値下げが発表されました。
GPT-4 Turbo
コード生成などのタスクを徹底的に完了し、モデルがタスクを完了しない “怠惰” のケースを減らすアップデートが施されました。新しいモデルには、英語以外の UTF-8 世代に影響を与えるバグの修正も含まれています。
この記事を書いた人
- 髙橋 和輝
-
テクニカルマーケターとして、新技術の検証、ブログ執筆、セミナー講師を行っております!
学生時代はアプリ開発に興味がありましたが、インフラ、セキュリティ事業を経て、現在はクラウド屋さんになっております。
コロナ禍前は、月1で海外旅行にいくなどアクティブに活動していましたが、最近は家に引きこもってゲームが趣味になっています。
宜しくお願い致します!
この投稿者の最新の記事
- 2024年3月25日ブログOracle Database@Azureが東日本リージョンに展開されることが発表されました!
- 2024年3月22日ブログAzure SQL DatabaseでCopilotがプレビュー公開!
- 2024年3月18日ブログAzureリソースの誤削除を防ぐ「ロック」機能とは
- 2024年3月14日ブログCopilot for Security の一般公開日が発表