OpenAI objavio Privacy Filter: 1.5B parametara, Apache 2.0 licenca, 128K kontekst i state-of-the-art detekcija osmero kategorija PII-a u jednom prolazu
Zašto je bitno
OpenAI je objavio Privacy Filter — open-source detektor osobno identifikacijskih podataka s 1.5 milijardi parametara (50M aktivnih), 128.000 token kontekstom i Apache 2.0 licencom. Detektira osam PII kategorija u jednom prolazu i postiže state-of-the-art rezultate na PII-Masking-300k benchmarku, s podrškom za više jezika.
OpenAI je objavio Privacy Filter — open-source jezični model dizajniran specifično za detekciju osobno identifikacijskih podataka (PII) u tekstu. Model je dostupan na Hugging Faceu pod Apache 2.0 licencom, što znači da ga developeri mogu slobodno koristiti u komercijalnim proizvodima bez ograničenja.
Tehničke specifikacije
Privacy Filter je u ovom paketu zanimljiv jer kombinira nekoliko pažljivo birane karakteristike:
| Aspekt | Vrijednost |
|---|---|
| Veličina modela | 1.5 milijardi parametara, 50M aktivnih |
| Licenca | Apache 2.0 (permisivna) |
| Kontekst | 128.000 tokena |
| Lokacija | openai/privacy-filter na Hugging Faceu |
Razlika između 1.5B ukupno i 50M aktivnih parametara sugerira Mixture-of-Experts (MoE) arhitekturu — model po kapacitetu odgovara većem sustavu, ali po cijeni izvođenja ponaša se kao puno manji. To je važno za produkcijske scenarije gdje treba obraditi velik volumen teksta uz prihvatljive troškove.
Osam PII kategorija u jednom prolazu
Model označava tekst u sljedećih osam kategorija:
private_personprivate_addressprivate_emailprivate_phoneprivate_urlprivate_dateaccount_numbersecret
Ključna prednost: jedan forward pass pokriva cijeli dokument do 128K tokena, bez potrebe za chunkanjem i naknadnim spajanjem. Time se izbjegavaju karakteristični problemi PII detektora koji rade na razini malih prozora — primjerice, prepoznavanje da je e-mail naveden u jednom dijelu dokumenta povezan s imenom navedenim 50.000 tokena ranije.
State-of-the-art na PII-Masking-300k
Privacy Filter postiže state-of-the-art rezultate na PII-Masking-300k benchmarku (ai4privacy dataset). Hugging Face blog navodi i da model “radi sa španjolskim, francuskim, kineskim, hindskim i drugim jezicima bez modifikacija”, što ga čini posebno korisnim za globalne aplikacije.
Tri primjera integracije u web aplikacije
Hugging Face blog OpenAI-a prati tri reference implementacije, sve izgrađene s gradio.Server i s istim ulaznim API-jem run_privacy_filter(text):
1. Document Privacy Explorer — analiza PDF i DOCX dokumenata. Vraća listu spans ({start, end, label}) i statistiku PII pojavljivanja.
2. Image Anonymizer — koristi OCR za izvlačenje teksta iz slika, primjenjuje Privacy Filter na tekst, a zatim mapira pronađene spanove natrag u pixel boxove za vizualno zamračenje.
3. SmartRedact Paste — pastebin sa automatskim redaktiranjem. Originalni tekst dostupan je samo s reveal tokenom, dok javna verzija prikazuje placeholder oznake (<CATEGORY>).
Sva tri primjera dostupna su kao Spaces na Hugging Faceu i mogu se klonirati za vlastite primjene.
BIOES dekodiranje za čiste granice
Hugging Face blog naglašava da Privacy Filter koristi BIOES dekodiranje (Begin, Inside, Outside, End, Single) za održavanje čistih granica spanova. To je važno u praksi jer netočan kraj spana — primjerice telefonski broj koji se “prelije” u sljedeću rečenicu — može uzrokovati ili lažnu detekciju ili propušteni PII.
Praktične implikacije
Open-source PII detektor ove kvalitete s Apache 2.0 licencom potencijalno mijenja ekonomiju compliance-a za niz scenarija:
- GDPR / DPIA procese gdje treba dokazati da PII nije prelazio određene granice obrade,
- enterprise pre-procesori za logove i analitičke pipelajne,
- chatbotove i RAG sustave koji moraju filtrirati ulazne dokumente prije slanja API pozivima vanjskim modelima,
- medijsku produkciju koja redaktira fotografije i dokumente prije objave.
Apache 2.0 znači da ne postoji obveza dijeljenja izmjena ni prijavljivanja korištenja — što je značajna prednost u odnosu na neke alternativne PII alate koji su pod ograničavajućim license-ima.
Model je dostupan odmah, a tri reference primjera mogu se koristiti kao šabloni za vlastite implementacije. Za produkcijsku upotrebu i dalje se preporučuje vlastita evaluacija na specifičnim domenskim podacima — opći benchmark je dobar signal, ali ne zamjenjuje testiranje na stvarnom prometu.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Povezane vijesti
ONNX v1.21.0 izlazi s Opset 26: novi CumProd i BitCast operatori, podrška za 2-bitne tipove i Python 3.14 free-threading eksperiment
Allen AI: OlmoEarth embeddings omogućuju segmentaciju krajobraza s tek 60 piksela i F1 rezultatom 0,84
Google DeepMind Decoupled DiLoCo: 20× manja mrežna propusnost za AI trening kroz geografski razdvojene datacentre