🟡 📦 Open Source Dienstag, 28. April 2026 · 3 Min. Lesezeit

OpenAI veröffentlicht Privacy Filter: 1,5 Mrd. Parameter, Apache-2.0-Lizenz, 128K-Kontext und State-of-the-Art-Erkennung von acht PII-Kategorien in einem Durchlauf

Stilisierte Darstellung eines Dokuments, dessen sensible Abschnitte automatisch durch einen Software-Filter verborgen werden, dargestellt durch abstrakte Schichten und Kategoriebeschriftungen.

Warum es wichtig ist

OpenAI hat den Privacy Filter veröffentlicht — einen Open-Source-Detektor für personenbezogene Daten mit 1,5 Milliarden Parametern (50 Mio. aktiv), einem 128.000-Token-Kontext und einer Apache-2.0-Lizenz. Er erkennt acht PII-Kategorien in einem einzigen Durchlauf und erzielt State-of-the-Art-Ergebnisse im PII-Masking-300k-Benchmark, mit Unterstützung für mehrere Sprachen.

OpenAI hat den Privacy Filter veröffentlicht — ein Open-Source-Sprachmodell, das speziell für die Erkennung personenbezogener Daten (PII) in Texten entwickelt wurde. Das Modell ist auf Hugging Face unter der Apache-2.0-Lizenz verfügbar, was bedeutet, dass Entwickler es in kommerziellen Produkten ohne Einschränkungen frei einsetzen können.

Technische Spezifikationen

Der Privacy Filter ist in diesem Paket bemerkenswert, weil er mehrere sorgfältig gewählte Eigenschaften kombiniert:

AspektWert
Modellgröße1,5 Milliarden Parameter, 50 Mio. aktiv
LizenzApache 2.0 (permissiv)
Kontext128.000 Token
Speicherortopenai/privacy-filter auf Hugging Face

Der Unterschied zwischen 1,5 Mrd. gesamt und 50 Mio. aktiven Parametern deutet auf eine Mixture-of-Experts (MoE)-Architektur hin — das Modell verhält sich kapazitätsmäßig wie ein größeres System, aber bezüglich der Betriebskosten wie ein viel kleineres. Dies ist wichtig für Produktionsszenarien, in denen große Textmengen zu akzeptablen Kosten verarbeitet werden müssen.

Acht PII-Kategorien in einem einzigen Durchlauf

Das Modell kennzeichnet Text in den folgenden acht Kategorien:

  • private_person
  • private_address
  • private_email
  • private_phone
  • private_url
  • private_date
  • account_number
  • secret

Ein entscheidender Vorteil: Ein einzelner Forward-Pass deckt das gesamte Dokument bis zu 128K Token ab, ohne dass Chunking und anschließendes Zusammenführen erforderlich sind. Dadurch werden die charakteristischen Probleme von PII-Detektoren vermieden, die in kleinen Fenstern arbeiten — beispielsweise die Erkennung, dass eine E-Mail-Adresse in einem Teil des Dokuments mit einem Namen verknüpft ist, der 50.000 Token früher erwähnt wurde.

State-of-the-Art im PII-Masking-300k

Der Privacy Filter erzielt State-of-the-Art-Ergebnisse im PII-Masking-300k-Benchmark (ai4privacy-Datensatz). Der Hugging Face-Blog weist auch darauf hin, dass das Modell “mit Spanisch, Französisch, Chinesisch, Hindi und anderen Sprachen ohne Modifikationen funktioniert”, was es besonders nützlich für globale Anwendungen macht.

Drei Beispiele für die Integration in Webanwendungen

Der Hugging Face-Blog von OpenAI enthält drei Referenzimplementierungen, alle erstellt mit gradio.Server und mit demselben Eingabe-API run_privacy_filter(text):

1. Document Privacy Explorer — Analyse von PDF- und DOCX-Dokumenten. Gibt eine Liste von Spans ({start, end, label}) und PII-Vorkommensstatistiken zurück.

2. Image Anonymizer — verwendet OCR zur Textextraktion aus Bildern, wendet den Privacy Filter auf den Text an und ordnet die gefundenen Spans dann Pixel-Bounding-Boxes für die visuelle Schwärzung zu.

3. SmartRedact Paste — ein Pastebin mit automatischer Schwärzung. Der Originaltext ist nur mit einem Reveal-Token zugänglich, während die öffentliche Version Platzhalter-Labels anzeigt (<CATEGORY>).

Alle drei Beispiele sind als Spaces auf Hugging Face verfügbar und können für eigene Implementierungen geklont werden.

BIOES-Dekodierung für saubere Grenzen

Der Hugging Face-Blog hebt hervor, dass der Privacy Filter BIOES-Dekodierung (Begin, Inside, Outside, End, Single) verwendet, um saubere Span-Grenzen zu gewährleisten. Dies ist in der Praxis wichtig, da ein falsches Span-Ende — etwa eine Telefonnummer, die in den nächsten Satz “überfließt” — zu Falscherkennungen oder übersehenen PII führen kann.

Praktische Implikationen

Ein Open-Source-PII-Detektor dieser Qualität unter der Apache-2.0-Lizenz verändert potenziell die Compliance-Ökonomie für eine Reihe von Szenarien:

  • DSGVO/DPIA-Prozesse, bei denen nachgewiesen werden muss, dass PII bestimmte Verarbeitungsgrenzen nicht überschritten hat,
  • Enterprise-Vorprozessoren für Logs und Analytics-Pipelines,
  • Chatbots und RAG-Systeme, die Eingabedokumente filtern müssen, bevor sie API-Aufrufe an externe Modelle senden,
  • Medienproduktion, die Fotos und Dokumente vor der Veröffentlichung schwärzt.

Apache 2.0 bedeutet, dass keine Verpflichtung besteht, Änderungen zu teilen oder die Nutzung zu melden — ein erheblicher Vorteil gegenüber einigen alternativen PII-Tools, die unter restriktiveren Lizenzen betrieben werden.

Das Modell ist sofort verfügbar, und die drei Referenzbeispiele können als Vorlagen für eigene Implementierungen verwendet werden. Für den Produktionseinsatz wird weiterhin eine eigene Evaluierung an domänenspezifischen Daten empfohlen — ein allgemeiner Benchmark ist ein nützliches Signal, ersetzt aber keine Tests mit realem Traffic.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.