AWS: 4억 건 문서 PII 삭제 — 95% 정확도

Huntington Bank는 AWS 스택(Textract, SageMaker, Step Functions)을 활용해 4억 건 이상의 문서에서 개인 정보를 95% 이상의 정확도로 삭제했습니다. 초기 비용 추정의 5%만 사용했으며, 일정도 수년에서 수개월로 단축되었습니다.

개인 정보 삭제가 시급한 문제가 된 이유

PII(개인 식별 정보) — 이름, 사회보장번호, 주민등록번호, 계좌 정보 등 개인을 명확히 식별하는 데이터 — 는 은행 부문에서 수백만 건의 구형 종이 및 디지털 문서에 나타납니다. GDPR 및 미국 GLBA 같은 규제 체계는 추가 처리나 공유 전 이를 제거하도록 요구합니다. 미국 주요 지역 은행 중 하나인 Huntington Bank는 산업 규모의 이 과제에 직면했습니다. 콘텐츠 무결성을 해치지 않으면서 처리해야 할 4억 건 이상의 문서가 있었습니다.

AWS는 예상 예산의 몇 분의 일로 어떻게 문제를 해결했습니까?

Huntington Bank는 95% 이상의 삭제 정확도를 달성하면서 동시에 하루 약 1,000만 건의 문서를 처리했습니다. 비교를 위해 말하자면, 수동 또는 반자동화 방식은 일반적으로 수년에 걸친 프로젝트와 훨씬 더 큰 팀이 필요합니다.

이를 가능하게 한 스택은 네 가지 AWS 서비스를 결합합니다. 스캔 문서에서 텍스트를 추출하는 Amazon Textract, PII 개체를 ML로 탐지하는 SageMaker, 워크플로우를 조율하는 Step Functions, 단계를 서버리스로 실행하는 Lambda이며, DataSync는 계층 간 안전한 파일 전송을 담당합니다.

재정적 측면에서도 두 가지 면에서 인상적입니다. 최종 프로젝트 비용은 초기 추정의 단 5%였으며, 일정은 계획된 수년에서 수개월로 단축되었습니다 — 기존 방식 대비 20배 저렴하게 납품된 것입니다.

더 넓은 산업에 대한 교훈

Huntington Bank 사례는 PII 삭제를 위한 AWS 파이프라인이 실험실 데모가 아님을 보여줍니다 — 측정 가능한 결과로 거의 5억 건의 문서에서 프로덕션 환경에서 작동합니다. 95% 이상의 정확도는 완벽하지 않지만, 위험 범주에 대한 목표 인간 검토와 결합하면 규제 준수에 충분합니다.

방대한 구형 문서 아카이브를 보유한 금융 기관과 의료 기관에게 이 모델은 명확한 경로를 제시합니다. 추출 및 탐지 자동화, ML 개체 분류, 서버리스 조율 — 인프라를 처음부터 구축할 필요 없이.

자주 묻는 질문

PII란 무엇이며 은행은 왜 이를 삭제해야 합니까?

PII(개인 식별 정보)는 이름, 주민등록번호, 계좌번호 등 개인을 식별할 수 있는 데이터입니다. 엄격한 규정의 적용을 받으며, 삭제 없이는 은행이 문서를 추가로 처리하거나 공유할 수 없습니다.

프로젝트 비용은 초기 추정 대비 얼마나 들었습니까?

최종 비용은 초기 추정의 단 5%였으며, 일정도 계획된 수년에서 불과 수개월로 단축되었습니다.

AWS: Huntington Bank, 4억 건 문서에서 PII를 95% 정확도로 삭제

개인 정보 삭제가 시급한 문제가 된 이유

AWS는 예상 예산의 몇 분의 일로 어떻게 문제를 해결했습니까?

더 넓은 산업에 대한 교훈

자주 묻는 질문

출처

관련 뉴스