Anthropic führt Rate Limits API ein: Administratoren können jetzt programmatisch die Rate-Limit-Konfiguration für Organisation und Workspaces abrufen
Warum es wichtig ist
Anthropic hat am 24. April 2026 die Rate Limits API veröffentlicht, Teil der Admin API, die es Administratoren ermöglicht, die konfigurierten Rate Limits für eine Organisation und einzelne Workspaces programmatisch abzurufen. Der Endpunkt liefert Limits nach Modellgruppe, Batch, Dateien, Skills und Web-Search-Tool und erfordert einen gesonderten Admin-API-Schlüssel.
Anthropic hat am 24. April 2026 in seinen Release Notes eine neue Rate Limits API angekündigt, Teil der umfassenderen Admin API, die Administratoren ermöglicht, die Rate-Limit-Konfiguration ihrer Organisation und einzelner Workspaces programmatisch abzurufen. Es handelt sich um eine natürliche Erweiterung einer Funktionalität, die bislang ausschließlich in der grafischen Claude Console-Oberfläche verfügbar war.
Welche Endpunkte stellt die neue API bereit und was geben sie zurück?
Die API stellt zwei primäre Endpunkte bereit, beide über https://api.anthropic.com erreichbar. GET /v1/organizations/rate_limits gibt alle Rate Limits zurück, die auf Organisationsebene für die Messages API und zugehörige Ressourcen gelten (Limits für Claude Managed Agents sind nicht enthalten). GET /v1/organizations/workspaces/{workspace_id}/rate_limits gibt nur die Overrides zurück, die für einen einzelnen Workspace gesetzt wurden — alles, was in der Antwort fehlt, bedeutet, dass der Workspace den Organisationswert erbt.
Beide Endpunkte unterstützen einen optionalen group_type-Query-Parameter zur Filterung nach Kategorie. Gültige Werte sind model_group, batch, token_count, files, skills und web_search. Der Organisations-Endpunkt akzeptiert zusätzlich einen model-Parameter, der die Gruppe zurückgibt, zu der ein bestimmtes Modell gehört.
Jeder Datensatz stellt eine einzelne Rate-Limit-Gruppe dar. Bei Gruppen vom Typ model_group listet das Feld models alle Modell-IDs und Aliase auf, die dieselbe Quote teilen (z. B. teilen Opus 4.5, 4.6 und 4.7 dieselbe RPM-Quote). Das Feld limits enthält {type, value}-Paare, wobei type requests_per_minute, input_tokens_per_minute oder output_tokens_per_minute sein kann. Der Workspace-Endpunkt fügt jedem Limit zusätzlich ein org_limit-Feld hinzu, das den Vergleich und die Prüfung von Overrides erleichtert.
Drei praktische Anwendungsfälle
Die Endpunkte erfordern einen gesonderten Admin-API-Schlüssel mit dem Präfix sk-ant-admin, der sich vom Standard-API-Schlüssel unterscheidet. Nur Organisationsmitglieder mit der Admin-Rolle können ihn über die Claude Console generieren, was bedeutet, dass der Zugriff auf Limits nicht in den Runtime-Code eingebettet sein muss — er kann in einem CI/CD- oder Monitoring-Prozess isoliert gehalten werden.
Anthropic hebt in der Dokumentation explizit drei Szenarien hervor. Das erste ist die Gateway- und Proxy-Synchronisierung — ein eigenes API-Gateway liest die aktuellen Limits beim Start und nach einem Zeitplan, anstatt Werte hardzukodieren, die abweichen, wenn Anthropic sie ändert. Das zweite ist internes Alerting — ein Vergleich von Daten aus der Usage-and-Cost-API mit den konfigurierten Limits für frühzeitige Warnungen, bevor 429-Fehler auftreten. Das dritte ist Konfigurations-Auditing — die Überprüfung, ob Workspace-Overrides noch dem entsprechen, was die Provisioning-Automatisierung erwartet.
Für Teams, die Claude-Integrationen für mehrere Kunden über dieselben Workspaces betreiben, ist der dritte Punkt besonders relevant — es ist nun möglich, einen Terraform- oder Ansible-Job einzurichten, der regelmäßig prüft, ob jemand ein Limit außerhalb der vereinbarten Konfiguration manuell geändert hat. Die API unterstützt keine Schreiboperationen; Workspace-Limits müssen weiterhin über die Console geändert werden.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Verwandte Nachrichten
arXiv:2604.21361: Open Compute Project kartiert Zeit-/Kausalitätsfehler in verteilten KI-Inferenzsystemen — 5 ms Clock-Skew bricht Observability
GitHub ändert Format der App-Installationstokens: von 40 auf ~520 Zeichen, Bruchrisiko für CI/CD-Pipelines
GitHub Copilot erhält GPT-5.5 GA: verfügbar in allen wichtigen IDEs mit 7,5× Premium-Multiplikator