AWS: PII redakcija 400M dokumenata — 95% točnost

Huntington Bank je uz AWS stack (Textract, SageMaker, Step Functions) redaktirao osobne podatke iz više od 400 milijuna dokumenata uz točnost višu od 95%, oborivši izvornu procjenu troška na samo 5% i skrativši rokove s godina na mjesece.

Zašto je redakcija osobnih podataka postala gorući problem

PII (Personally Identifiable Information) — osobni podaci koji jednoznačno identificiraju fizičku osobu, poput imena, broja socijalnog osiguranja, JMBG-a ili podataka o računu — u bankarskom sektoru pojavljuju se u milijunima starih papirnatih i digitalnih dokumenata. Regulatorni okviri poput GDPR-a i američkog GLBA-a zahtijevaju njihovo uklanjanje prije svake daljnje obrade ili dijeljenja. Huntington Bank, jedna od vodećih regionalnih banaka u SAD-u, suočila se s tim zadatkom u industrijskim razmjerima: više od 400 milijuna dokumenata koje je trebalo obraditi bez narušavanja integriteta sadržaja.

Kako je AWS riješio problem u razlomku predviđenog budžeta?

Huntington Bank postigao je redakcijsku točnost višu od 95% i istovremeno obradio oko 10 milijuna dokumenata dnevno. Za usporedbu, ručni ili poluautomatizirani pristupi tipično bi zahtijevali višegodišnje projekte i višestruko veće timove.

Stack koji je to omogućio kombinira četiri AWS servisa: Amazon Textract za ekstrakciju teksta iz skeniranih dokumenata, SageMaker za ML detekciju PII entiteta, Step Functions za orkestraciju radnih tijekova i Lambda za serverless izvođenje koraka, dok DataSync preuzima sigurni prijenos datoteka između slojeva.

Rezultat je dvostruko impresivan na financijskoj strani: krajnji trošak projekta iznosio je svega 5% izvorne procjene, a rokovi su skraćeni s planiranih godina na nekoliko mjeseci — što znači da je projekt isporučen 20 puta jeftinije nego što je bilo predviđeno klasičnim pristupom.

Lekcije za širu industriju

Slučaj Huntington Banke pokazuje da AWS-ov pipeline za redakciju PII nije laboratorijska demonstracija — radi u produkciji na gotovo pola milijarde dokumenata uz mjerljive rezultate. Točnost od 95%+ pritom nije savršena, ali je dovoljna za regulatornu usklađenost u kombinaciji s ciljanom ljudskom revizijom rizičnih kategorija.

Za financijske institucije i zdravstvene organizacije koje sjede na golemim arhivama starih dokumenata, ovaj model nudi jasan put: automatizacija ekstrakcije i detekcije, ML klasifikacija entiteta i serverless orkestracija — bez potrebe za izgradnjom infrastrukture od nule.

Česta pitanja

Što je PII i zašto ga banke moraju uklanjati?

PII (Personally Identifiable Information — osobni podaci koji omogućuju identifikaciju fizičke osobe, poput imena, JMBG-a ili broja računa) podliježe strogim propisima; bez redakcije banke ne mogu dalje obrađivati ni dijeliti dokumente.

Koliko je projekt koštao u usporedbi s izvornom procjenom?

Krajnji trošak iznosio je samo 5% izvorne procjene, a rokovi su skraćeni s planiranih godina na svega nekoliko mjeseci.

AWS: Huntington Bank redaktirao PII iz 400 milijuna dokumenata uz 95% točnost

Zašto je redakcija osobnih podataka postala gorući problem

Kako je AWS riješio problem u razlomku predviđenog budžeta?

Lekcije za širu industriju

Česta pitanja

Izvori

Povezane vijesti