🟡 📦 Open Source utorak, 28. travnja 2026. · 3 min čitanja

OpenAI objavio Privacy Filter: 1.5B parametara, Apache 2.0 licenca, 128K kontekst i state-of-the-art detekcija osmero kategorija PII-a u jednom prolazu

Stilizirani prikaz dokumenta čiji se osjetljivi dijelovi automatski sakrivaju kroz softverski filter, predstavljen apstraktnim slojevima i oznakama kategorija.

Zašto je bitno

OpenAI je objavio Privacy Filter — open-source detektor osobno identifikacijskih podataka s 1.5 milijardi parametara (50M aktivnih), 128.000 token kontekstom i Apache 2.0 licencom. Detektira osam PII kategorija u jednom prolazu i postiže state-of-the-art rezultate na PII-Masking-300k benchmarku, s podrškom za više jezika.

OpenAI je objavio Privacy Filter — open-source jezični model dizajniran specifično za detekciju osobno identifikacijskih podataka (PII) u tekstu. Model je dostupan na Hugging Faceu pod Apache 2.0 licencom, što znači da ga developeri mogu slobodno koristiti u komercijalnim proizvodima bez ograničenja.

Tehničke specifikacije

Privacy Filter je u ovom paketu zanimljiv jer kombinira nekoliko pažljivo birane karakteristike:

AspektVrijednost
Veličina modela1.5 milijardi parametara, 50M aktivnih
LicencaApache 2.0 (permisivna)
Kontekst128.000 tokena
Lokacijaopenai/privacy-filter na Hugging Faceu

Razlika između 1.5B ukupno i 50M aktivnih parametara sugerira Mixture-of-Experts (MoE) arhitekturu — model po kapacitetu odgovara većem sustavu, ali po cijeni izvođenja ponaša se kao puno manji. To je važno za produkcijske scenarije gdje treba obraditi velik volumen teksta uz prihvatljive troškove.

Osam PII kategorija u jednom prolazu

Model označava tekst u sljedećih osam kategorija:

  • private_person
  • private_address
  • private_email
  • private_phone
  • private_url
  • private_date
  • account_number
  • secret

Ključna prednost: jedan forward pass pokriva cijeli dokument do 128K tokena, bez potrebe za chunkanjem i naknadnim spajanjem. Time se izbjegavaju karakteristični problemi PII detektora koji rade na razini malih prozora — primjerice, prepoznavanje da je e-mail naveden u jednom dijelu dokumenta povezan s imenom navedenim 50.000 tokena ranije.

State-of-the-art na PII-Masking-300k

Privacy Filter postiže state-of-the-art rezultate na PII-Masking-300k benchmarku (ai4privacy dataset). Hugging Face blog navodi i da model “radi sa španjolskim, francuskim, kineskim, hindskim i drugim jezicima bez modifikacija”, što ga čini posebno korisnim za globalne aplikacije.

Tri primjera integracije u web aplikacije

Hugging Face blog OpenAI-a prati tri reference implementacije, sve izgrađene s gradio.Server i s istim ulaznim API-jem run_privacy_filter(text):

1. Document Privacy Explorer — analiza PDF i DOCX dokumenata. Vraća listu spans ({start, end, label}) i statistiku PII pojavljivanja.

2. Image Anonymizer — koristi OCR za izvlačenje teksta iz slika, primjenjuje Privacy Filter na tekst, a zatim mapira pronađene spanove natrag u pixel boxove za vizualno zamračenje.

3. SmartRedact Paste — pastebin sa automatskim redaktiranjem. Originalni tekst dostupan je samo s reveal tokenom, dok javna verzija prikazuje placeholder oznake (<CATEGORY>).

Sva tri primjera dostupna su kao Spaces na Hugging Faceu i mogu se klonirati za vlastite primjene.

BIOES dekodiranje za čiste granice

Hugging Face blog naglašava da Privacy Filter koristi BIOES dekodiranje (Begin, Inside, Outside, End, Single) za održavanje čistih granica spanova. To je važno u praksi jer netočan kraj spana — primjerice telefonski broj koji se “prelije” u sljedeću rečenicu — može uzrokovati ili lažnu detekciju ili propušteni PII.

Praktične implikacije

Open-source PII detektor ove kvalitete s Apache 2.0 licencom potencijalno mijenja ekonomiju compliance-a za niz scenarija:

  • GDPR / DPIA procese gdje treba dokazati da PII nije prelazio određene granice obrade,
  • enterprise pre-procesori za logove i analitičke pipelajne,
  • chatbotove i RAG sustave koji moraju filtrirati ulazne dokumente prije slanja API pozivima vanjskim modelima,
  • medijsku produkciju koja redaktira fotografije i dokumente prije objave.

Apache 2.0 znači da ne postoji obveza dijeljenja izmjena ni prijavljivanja korištenja — što je značajna prednost u odnosu na neke alternativne PII alate koji su pod ograničavajućim license-ima.

Model je dostupan odmah, a tri reference primjera mogu se koristiti kao šabloni za vlastite implementacije. Za produkcijsku upotrebu i dalje se preporučuje vlastita evaluacija na specifičnim domenskim podacima — opći benchmark je dobar signal, ali ne zamjenjuje testiranje na stvarnom prometu.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.