🟡 🏥 実践 公開日: · 2 分で読めます ·

AWS: Nova 2 Liteとクロード — スキャン文書処理のコスト最適化パイプライン

エディトリアルイラスト:スキャン文書処理のコスト最適化パイプラインとしてのNova 2 Liteとクロード、テキストと顔なし

AWSはAmazon Bedrockプラットフォームでスキャン文書を大量にデジタル化するための2段階(two-stage)パイプラインアーキテクチャを実演しています。Amazon Nova 2 Liteが高速かつ安価に初期抽出を担い、クロードが空間的に複雑な理解を処理します — シングルモデルの代替と比べて約3分の2コストを削減するハイブリッドアプローチです。

🤖

この記事はAIにより一次情報源から生成されました。

AWSはAmazon Bedrockプラットフォームでスキャン文書を大量にデジタル化するための2段階(two-stage)パイプラインアーキテクチャを発表しました。デモでは複雑なレイアウトの卒業アルバムを使用していますが、視覚要素をテキストデータと結びつける必要のある大規模な文書処理シナリオに幅広く適用できます。

2段階パイプラインの仕組み

2段階パイプラインとは、2つのモデルが順番に動作するアーキテクチャパターンです — 安価なモデルが定型処理を行い、高価なモデルが最も要求の高いステップのみを担います。このケースでは、Amazon Nova 2 Liteが1回のAPI呼び出しでスキャンされた各ページを処理します:バウンディングボックスを用いた写真の検出、ページ上の位置情報を含む可視の名前の抽出、ページレベルのメタデータの出力を行います。Nova 2 Liteは予測可能なコストのために低い推論レベル(LOW reasoning level)で動作します — 解像度に関係なく画像ごとの固定料金で。

役割分担:Nova 2 Lite対クロード

Claude Sonnet 4.6が第2ステップに入り、Nova 2 Liteが解決しなかった部分を担います:ページ上の特定の人物に名前を関連付ける空間的(spatial)推論です。クロードは適応的な思考を使用し、各レイアウトタイプに対する手動のプロンプトエンジニアリングなしに入力の複雑さに応じて推論の深さを調整します。Nova 2 Liteはページあたり約1,000の出力トークンを生成し、クロードは約1,700トークンを消費します。

コスト階層化アプローチのコストへの影響

核心は、クロードが不可欠な場所でのみ使用されるということです。結果:2段階パイプラインは1ページあたり約0.033米ドルのコストで、クロードのみで処理すると約0.10米ドルになります。100,000ページでは約6,500米ドルの差となります。AWSは336ページの卒業アルバムにおける3,122の名前と顔の対応関係のサンプルで精度をテストしました — 93.3%が信頼度≥0.95を達成し、0.90を下回るのはわずか0.3%です。

このパターンが有効な他の場所は?

卒業アルバム以外では、同じアーキテクチャパターンが歴史的なアーカイブ、スタッフ名簿、不動産登記、製品カタログに適用できます。文書処理に明確な「軽い」部分と「重い」部分がある場合はすべて、コスト階層化マルチモデルパイプラインの候補です:Amazon Nova 2 Liteに定型作業を担わせ、クロードに空間的・意味的に要求の高いステップを任せましょう。

よくある質問

2段階パイプラインはクロードのみを使う場合に比べてどのくらい安価ですか?
おおよそ3分の2安くなります — 2段階パイプラインは1ページあたり約0.033米ドルのコストで、シングルモデルのクロードアプローチは約0.10米ドルです。100,000ページでは約6,500米ドルの節約になります。
このアプローチに適した利用例はどんな文書ですか?
卒業アルバム(yearbook)のページ以外にも、このアプローチは歴史的なアーカイブ、スタッフ名簿、不動産リスト、テキスト抽出を伴う視覚要素の検出を必要とする製品カタログなどに適用できます。