AWS: 4億件文書のPII削除 — 95%の精度

Huntington BankはAWSスタック（Textract、SageMaker、Step Functions）を使用して、4億件以上の文書から個人情報を95%超の精度で削除し、当初のコスト見積もりをわずか5%に抑え、期間を数年から数ヶ月に短縮しました。

個人データの削除が緊急の問題となった理由

PII（Personally Identifiable Information）— 氏名、社会保障番号、マイナンバー、口座情報など個人を一意に特定する個人データ — は銀行セクターにおいて、数百万件の古い紙の文書やデジタル文書に含まれています。GDPRや米国のGLBAなどの規制フレームワークは、さらなる処理や共有の前にこれらを削除することを義務付けています。米国の主要な地域銀行の1つであるHuntington Bankは、この課題に産業規模で直面しました。コンテンツの完全性を損なわずに処理する必要のある4億件以上の文書です。

AWSが予定予算のほんの一部でこの問題を解決した方法

Huntington Bankは95%超の削除精度を達成し、同時に1日約1,000万件の文書を処理しました。比較のため、手動または半自動のアプローチは通常、数年のプロジェクトと数倍のチームを必要としたでしょう。

これを可能にしたスタックは4つのAWSサービスを組み合わせています。スキャン文書からのテキスト抽出にAmazon Textract、PII エンティティのML検出にSageMaker、ワークフローのオーケストレーションにStep Functions、ステップのサーバーレス実行にLambdaを使用し、DataSyncがレイヤー間のセキュアなファイル転送を担当します。

財務面での結果は二重に印象的です。プロジェクトの最終コストは当初見積もりのわずか5%で、期間は計画されていた数年から数ヶ月に短縮されました。つまり、プロジェクトは従来のアプローチが見込んでいたものより20倍安く納品されたことになります。

広範な業界への教訓

Huntington Bankのケースは、AWSのPII削除パイプラインが実験的なデモではないことを示しています — ほぼ5億件の文書を処理して本番環境で動作し、測定可能な結果を出しています。95%超の精度は完璧ではありませんが、リスクの高いカテゴリーを対象とした人間によるレビューと組み合わせることで規制準拠には十分です。

古い文書の膨大なアーカイブを抱える金融機関や医療機関にとって、このモデルは明確な道を示しています。抽出と検出の自動化、MLエンティティ分類、サーバーレスオーケストレーション — インフラをゼロから構築することなく実現できます。

よくある質問

PIIとは何ですか？なぜ銀行はそれを削除しなければならないのですか？

PII（個人を特定できる情報 — 氏名、マイナンバー、口座番号などの個人の特定を可能にする個人データ）は厳格な規制の対象となっています。削除なしには銀行は文書をさらに処理したり共有したりすることができません。

このプロジェクトは当初の見積もりと比べていくらかかりましたか？

最終的なコストは当初見積もりのわずか5%で、期間は計画されていた数年からわずか数ヶ月に短縮されました。

AWS: Huntington Bankが4億件以上の文書からPIIを95%の精度で削除

個人データの削除が緊急の問題となった理由

AWSが予定予算のほんの一部でこの問題を解決した方法

広範な業界への教訓

よくある質問

出典

関連ニュース