AWS: Huntington Bank redaktirao PII iz 400 milijuna dokumenata uz 95% točnost
Huntington Bank je uz AWS stack (Textract, SageMaker, Step Functions) redaktirao osobne podatke iz više od 400 milijuna dokumenata uz točnost višu od 95%, oborivši izvornu procjenu troška na samo 5% i skrativši rokove s godina na mjesece.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Zašto je redakcija osobnih podataka postala gorući problem
PII (Personally Identifiable Information) — osobni podaci koji jednoznačno identificiraju fizičku osobu, poput imena, broja socijalnog osiguranja, JMBG-a ili podataka o računu — u bankarskom sektoru pojavljuju se u milijunima starih papirnatih i digitalnih dokumenata. Regulatorni okviri poput GDPR-a i američkog GLBA-a zahtijevaju njihovo uklanjanje prije svake daljnje obrade ili dijeljenja. Huntington Bank, jedna od vodećih regionalnih banaka u SAD-u, suočila se s tim zadatkom u industrijskim razmjerima: više od 400 milijuna dokumenata koje je trebalo obraditi bez narušavanja integriteta sadržaja.
Kako je AWS riješio problem u razlomku predviđenog budžeta?
Huntington Bank postigao je redakcijsku točnost višu od 95% i istovremeno obradio oko 10 milijuna dokumenata dnevno. Za usporedbu, ručni ili poluautomatizirani pristupi tipično bi zahtijevali višegodišnje projekte i višestruko veće timove.
Stack koji je to omogućio kombinira četiri AWS servisa: Amazon Textract za ekstrakciju teksta iz skeniranih dokumenata, SageMaker za ML detekciju PII entiteta, Step Functions za orkestraciju radnih tijekova i Lambda za serverless izvođenje koraka, dok DataSync preuzima sigurni prijenos datoteka između slojeva.
Rezultat je dvostruko impresivan na financijskoj strani: krajnji trošak projekta iznosio je svega 5% izvorne procjene, a rokovi su skraćeni s planiranih godina na nekoliko mjeseci — što znači da je projekt isporučen 20 puta jeftinije nego što je bilo predviđeno klasičnim pristupom.
Lekcije za širu industriju
Slučaj Huntington Banke pokazuje da AWS-ov pipeline za redakciju PII nije laboratorijska demonstracija — radi u produkciji na gotovo pola milijarde dokumenata uz mjerljive rezultate. Točnost od 95%+ pritom nije savršena, ali je dovoljna za regulatornu usklađenost u kombinaciji s ciljanom ljudskom revizijom rizičnih kategorija.
Za financijske institucije i zdravstvene organizacije koje sjede na golemim arhivama starih dokumenata, ovaj model nudi jasan put: automatizacija ekstrakcije i detekcije, ML klasifikacija entiteta i serverless orkestracija — bez potrebe za izgradnjom infrastrukture od nule.
Česta pitanja
- Što je PII i zašto ga banke moraju uklanjati?
- PII (Personally Identifiable Information — osobni podaci koji omogućuju identifikaciju fizičke osobe, poput imena, JMBG-a ili broja računa) podliježe strogim propisima; bez redakcije banke ne mogu dalje obrađivati ni dijeliti dokumente.
- Koliko je projekt koštao u usporedbi s izvornom procjenom?
- Krajnji trošak iznosio je samo 5% izvorne procjene, a rokovi su skraćeni s planiranih godina na svega nekoliko mjeseci.