Što je OpenAI Privacy Filter?

Open-source jezični model za detekciju osobno identifikacijskih podataka (PII) u tekstu. Označava tekst u osam PII kategorija u jednom forward passu uz 128.000 token kontekst. Dostupan je pod Apache 2.0 licencom na Hugging Faceu.

Što znači '1.5B parametara, 50M aktivnih'?

Ukupna veličina modela je 1.5 milijardi parametara, ali se pri svakom prolazu aktivira samo 50 milijuna. Ovo je tipičan obrazac za Mixture-of-Experts arhitekture i znači da je model značajno efikasniji za izvođenje od svoje ukupne veličine.

Koje PII kategorije model detektira?

Osam: private_person, private_address, private_email, private_phone, private_url, private_date, account_number i secret. Pokriva i više jezika — španjolski, francuski, kineski, hindski i druge — bez dodatnih modifikacija.

Kako se može integrirati u web aplikacije?

Hugging Face blog demonstrira tri primjera kroz gradio.Server: Document Privacy Explorer (PDF/DOCX), Image Anonymizer (OCR + pixel boxes) i SmartRedact Paste (pastebin s automatskom redakcijom). Svi koriste isti API pattern run_privacy_filter(text).

OpenAI Privacy Filter 1.5B: Apache 2.0 PII detektor s 128K kontekstom

OpenAI je objavio Privacy Filter — open-source detektor osobno identifikacijskih podataka s 1.5 milijardi parametara (50M aktivnih), 128.000 token kontekstom i Apache 2.0 licencom. Detektira osam PII kategorija u jednom prolazu i postiže state-of-the-art rezultate na PII-Masking-300k benchmarku, s podrškom za više jezika.

OpenAI je objavio Privacy Filter — open-source jezični model dizajniran specifično za detekciju osobno identifikacijskih podataka (PII) u tekstu. Model je dostupan na Hugging Faceu pod Apache 2.0 licencom, što znači da ga developeri mogu slobodno koristiti u komercijalnim proizvodima bez ograničenja.

Tehničke specifikacije

Privacy Filter je u ovom paketu zanimljiv jer kombinira nekoliko pažljivo birane karakteristike:

Aspekt	Vrijednost
Veličina modela	1.5 milijardi parametara, 50M aktivnih
Licenca	Apache 2.0 (permisivna)
Kontekst	128.000 tokena
Lokacija	`openai/privacy-filter` na Hugging Faceu

Razlika između 1.5B ukupno i 50M aktivnih parametara sugerira Mixture-of-Experts (MoE) arhitekturu — model po kapacitetu odgovara većem sustavu, ali po cijeni izvođenja ponaša se kao puno manji. To je važno za produkcijske scenarije gdje treba obraditi velik volumen teksta uz prihvatljive troškove.

Osam PII kategorija u jednom prolazu

Model označava tekst u sljedećih osam kategorija:

private_person
private_address
private_email
private_phone
private_url
private_date
account_number
secret

Ključna prednost: jedan forward pass pokriva cijeli dokument do 128K tokena, bez potrebe za chunkanjem i naknadnim spajanjem. Time se izbjegavaju karakteristični problemi PII detektora koji rade na razini malih prozora — primjerice, prepoznavanje da je e-mail naveden u jednom dijelu dokumenta povezan s imenom navedenim 50.000 tokena ranije.

State-of-the-art na PII-Masking-300k

Privacy Filter postiže state-of-the-art rezultate na PII-Masking-300k benchmarku (ai4privacy dataset). Hugging Face blog navodi i da model “radi sa španjolskim, francuskim, kineskim, hindskim i drugim jezicima bez modifikacija”, što ga čini posebno korisnim za globalne aplikacije.

Tri primjera integracije u web aplikacije

Hugging Face blog OpenAI-a prati tri reference implementacije, sve izgrađene s gradio.Server i s istim ulaznim API-jem run_privacy_filter(text):

1. Document Privacy Explorer — analiza PDF i DOCX dokumenata. Vraća listu spans ({start, end, label}) i statistiku PII pojavljivanja.

2. Image Anonymizer — koristi OCR za izvlačenje teksta iz slika, primjenjuje Privacy Filter na tekst, a zatim mapira pronađene spanove natrag u pixel boxove za vizualno zamračenje.

3. SmartRedact Paste — pastebin sa automatskim redaktiranjem. Originalni tekst dostupan je samo s reveal tokenom, dok javna verzija prikazuje placeholder oznake (<CATEGORY>).

Sva tri primjera dostupna su kao Spaces na Hugging Faceu i mogu se klonirati za vlastite primjene.

BIOES dekodiranje za čiste granice

Hugging Face blog naglašava da Privacy Filter koristi BIOES dekodiranje (Begin, Inside, Outside, End, Single) za održavanje čistih granica spanova. To je važno u praksi jer netočan kraj spana — primjerice telefonski broj koji se “prelije” u sljedeću rečenicu — može uzrokovati ili lažnu detekciju ili propušteni PII.

Praktične implikacije

Open-source PII detektor ove kvalitete s Apache 2.0 licencom potencijalno mijenja ekonomiju compliance-a za niz scenarija:

GDPR / DPIA procese gdje treba dokazati da PII nije prelazio određene granice obrade,
enterprise pre-procesori za logove i analitičke pipelajne,
chatbotove i RAG sustave koji moraju filtrirati ulazne dokumente prije slanja API pozivima vanjskim modelima,
medijsku produkciju koja redaktira fotografije i dokumente prije objave.

Apache 2.0 znači da ne postoji obveza dijeljenja izmjena ni prijavljivanja korištenja — što je značajna prednost u odnosu na neke alternativne PII alate koji su pod ograničavajućim license-ima.

Model je dostupan odmah, a tri reference primjera mogu se koristiti kao šabloni za vlastite implementacije. Za produkcijsku upotrebu i dalje se preporučuje vlastita evaluacija na specifičnim domenskim podacima — opći benchmark je dobar signal, ali ne zamjenjuje testiranje na stvarnom prometu.

OpenAI objavio Privacy Filter: 1.5B parametara, Apache 2.0 licenca, 128K kontekst i state-of-the-art detekcija osmero kategorija PII-a u jednom prolazu

Tehničke specifikacije

Osam PII kategorija u jednom prolazu

State-of-the-art na PII-Masking-300k

Tri primjera integracije u web aplikacije

BIOES dekodiranje za čiste granice

Praktične implikacije

Česta pitanja

Izvori

Povezane vijesti