GitHub: 19-62% uštede tokena u agentnim workflowima

GitHub je instrumentirao produkcijske agentne workflowe i identificirao tri glavna izvora rasipanja tokena: nepotrebne MCP alate, deterministično dohvaćanje podataka i pogrešno konfigurirana bash pravila. Optimizacijom je postignuta ušteda od 19% do 62% po workflowu.

GitHub inženjerski tim objavio je 7. svibnja 2026. analizu vlastitih produkcijskih agentnih workflowa s konkretnim brojkama o gubitku tokena i mjerama optimizacije. Tekst je rijedak primjer transparentnog prikaza troškova i pomaže timovima koji grade slične sustave.

Tri glavna izvora rasipanja tokena

Prvo, nepotrebne sheme MCP alata. Pun GitHub MCP server s 40 alata dodaje 10-15 KB konteksta po svakom potezu, a većina workflowa koristi samo nekoliko alata. Uklanjanjem nekorištenih alata iz MCP konfiguracije veličina konteksta po pozivu smanjila se za 8-12 KB, što štedi tisuće tokena po pokretanju. MCP (Model Context Protocol) je standard kojim alati izlažu svoje sheme jezičnom modelu.

Drugo, deterministično dohvaćanje podataka. Mnogi koraci agenta su čitanja koja ne zahtijevaju zaključivanje — npr. dohvat metapodataka issue-a. Pomicanjem takvih dohvata u pre-agentni CLI korak, prije pokretanja modela, ti pozivi izlaze iz LLM petlje rezoniranja u potpunosti.

Treće, pogrešno konfigurirana pravila. Jednolinijska greška u bash dopuštenoj listi izazvala je 64-koračnu fallback petlju u kojoj je workflow ručno rekonstruirao izlaz prevodioca umjesto da pozove odgovarajući alat.

Konkretne uštede po workflowu

Pet optimiziranih workflowa postiglo je sljedeće rezultate: Auto-Triage Issues smanjenje 62% (preko 109 pokretanja), Security Guard 43%, Smoke Claude 59%, Daily Compiler Quality 19%, Community Attribution 37%. Optimizacija samo Auto-Triagea uštedjela je oko 7,8 milijuna effective tokena tijekom razdoblja promatranja.

Što je metrika Effective Tokens?

GitHub je razvio formulu ET = m × (1.0 × I + 0.1 × C + 4.0 × O) za normalizaciju troškova kroz različite razine modela. I su input tokeni, C cache-read tokeni, O output tokeni, m multiplikator modela. Output tokeni nose 4× težinu kao najskuplji tip, dok cache-read tokeni samo 0,1×. Metrika omogućuje izravnu usporedbu workflowa koji koriste različite modele i različite obrasce caching-a — tim ne treba odvojeno pratiti dolar trošak po modelu.

Česta pitanja

Što je Effective Tokens metrika?

Formula ET = m × (1.0 × I + 0.1 × C + 4.0 × O) ponderira tipove tokena po cijeni: input 1×, cache-read 0,1×, output 4×; m je multiplikator modela.

Koliko su sheme MCP alata stvarno teške?

Pun GitHub MCP server s 40 alata dodaje 10-15 KB konteksta po potezu, a smanjenje na korištene alate štedi 8-12 KB i nekoliko tisuća tokena po pokretanju.

Koji je primjer 64-koračne petlje?

Zbog jednolinijske krive konfiguracije bash dopuštene liste, jedan workflow je ručno rekonstruirao izlaz prevodioca umjesto da pozove alat, što je rezultiralo 64-koračnom fallback petljom.

GitHub: Optimizacijom agentnih workflowa postignute uštede tokena od 19% do 62%

Tri glavna izvora rasipanja tokena

Konkretne uštede po workflowu

Što je metrika Effective Tokens?

Česta pitanja

Izvori

Povezane vijesti