基礎

埋め込み(embedding、ベクトル表現)

単語、文、文書を高次元空間内のベクトルとして表現したもので、意味的に類似する内容は互いに近いベクトルを持ちます。RAGやセマンティック検索の基盤となります。

**埋め込み(embedding)**は、単語、文、段落、画像、その他あらゆる入力の意味を表す浮動小数点数の密ベクトル(通常256〜4096次元)です。重要な性質は、類似した意味を持つ項目はその空間で互いに近くに位置し、無関係な項目は遠く離れることです。距離は通常、コサイン類似度またはユークリッド距離で測定されます。

埋め込みは特別に学習されたモデルによって生成されます — 例えばOpenAIの text-embedding-3-large、Cohere Embed v3、または bge-m3nomic-embed のようなオープンモデル。多くの大規模言語モデルは、内部的に埋め込みをトークン化後の最初の層として使用します。各トークンは、トランスフォーマー層に入る前に、学習されたベクトルにマッピングされます。

主な応用:

  • セマンティック検索: 完全一致の単語を探す代わりに、意味の似た文書を見つける
  • RAGシステム: 回答生成前にベクトルデータベースから関連文書を取得
  • 分類とクラスタリング: 手動ラベル付けなしで類似コンテンツをグループ化
  • レコメンデーション: 「Xを見たユーザーはYを欲しいかもしれない」

埋め込みは、現代のすべてのセマンティック検索システムとRAGアーキテクチャの基盤です — それらなしでは、AIアシスタントは会話のコンテキスト外の独自の文書や知識に効果的にアクセスできません。

出典

関連項目