🟡 📦 Open Source Objavljeno: · 3 min čitanja ·

arXiv:2605.15041 CAST framework: case-based calibration LLM tool use postiže +5,85pp BFCLv2 i -26 % reasoning length

arXiv:2605.15041 ↗

Editorial illustration: LLM agent s case library prikazom i tool call validation indicators.

CAST je novi arXiv paper objavljen 14. svibnja 2026. autora Renning Pang, Tian Lan, Leyuan Liu, Piao Tong, Sheng Cao i Xiaosong Zhang koji uvodi case-based calibration framework za LLM tool use. Pristup tretira historical execution trajectories kao structured information za reinforcement learning — postiže do +5,85 postotnih bodova execution accuracy improvement nad BFCLv2 baseline-om i 26 % redukciju average reasoning length-a.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.

Renning Pang, Tian Lan, Leyuan Liu, Piao Tong, Sheng Cao i Xiaosong Zhang objavili su 14. svibnja 2026. na arXivu paper koji predstavlja CAST (Case-driven framework) — novi pristup tool use calibration-u za LLM agente. Glavna tvrdnja: do +5,85 postotnih bodova BFCLv2 accuracy improvement uz 26 % redukciju reasoning length-a.

Što je tool use calibration problem?

LLM agenti koji koriste external tools (function calling, API pozivi, code execution) suočavaju se s dvojakim izazovom:

  • Reasoning depth — koliko deeply razmišljati prije svake tool invokacije
  • Structural validity — pridržavati se tool schema (parameter types, required fields, format)

Naivni pristup: više reasoning + više validation = bolji rezultati. Praktično: to dramatic skaplja inference cost i ne garantira pravu accuracy improvement. Treba pametniji pristup koji kalibrira reasoning depth prema task complexity-u.

Što CAST framework konkretno radi?

CAST tretira historical execution trajectories kao structured information umjesto samo few-shot examples:

  • Complexity profile extraction — analizira past cases za identifikaciju koje task characteristike zahtijevaju koliko reasoning depth
  • Failure pattern mapping — povezuje strukturne propuste (krivi parameter format, missing required fields) s task profile značajkama
  • Targeted reward conversion — pretvara to znanje u reinforcement learning reward signals umjesto static prompt engineering

Krajnji rezultat: model autonomno usvaja case-based strategije kroz RL training, a ne kroz inference-time prompt manipulation.

Po čemu se razlikuje od existing few-shot approach-a?

Standard few-shot tool use:

  • Korisnik provides 3-5 example tool calls u prompt-u
  • Model “imitira” pattern kroz in-context learning
  • Limited - ne adapter na novel cases

CAST pristup:

  • Treningom internalizira statistics historical cases (a ne pojedinačne primjere)
  • Razvija adaptive policy koji bira reasoning depth per-task
  • Generalizira na unseen task distributions zbog complexity profile abstraction-a

Pristup je sličan curriculum learning u RL — model uči ne samo “što napraviti” već i “kako odlučiti koliko truda investirati”.

Koji su konkretni benchmark rezultati?

Tim evaluira na dva benchmarka:

  • BFCLv2 (Berkeley Function Calling Leaderboard v2) — industry standard za function calling evaluation
  • ToolBench — komplementarni benchmark s diverse tool ecosystem-om

Headline rezultati:

  • Up to +5,85 percentage points overall execution accuracy improvement
  • 26 % decrease in average deliberation length
  • Significantly reduces high-impact structural failures (krivi parameter types, missing required fields)

Razlika između “small accuracy gain” i “+5,85pp” je dramatic — frontier model leaderboardi tipično measure gains u 1-2pp inkrementima. 5,85pp je strong signal da pristup adresira fundamental optimization opportunity koji prethodni rad nije iskoristio.

Što ovo znači za production agent deployments?

CAST findings imaju direktne implikacije za enterprise agent systems:

  • Trening pristup — production teams mogu fine-tunirati open-source tool use modele (Llama, Qwen, DeepSeek) na svojim historical execution logs umjesto da plaćaju frontier API
  • Inference savings — 26 % token reduction je značajna ušteda za high-volume agent deployments
  • Reliability — smanjenje structural failures je kritično za mission-critical workflows gdje failed tool call može imati downstream consequences

Paper se uklapa u 2026. trend specialized RL training za agentic systems: GraphFlow formal verification (15.5.), Microsoft AI Delegation Reliability (15.5.), Dual-Dimensional Consistency (14.5.). Svi dijele zaključak: mainstream RLHF pristup nije dovoljan za production agentic workloads — trebaju specialized training objektive koji optimiziraju za task-specific reliability metrics, ne general preference alignment.

Česta pitanja

Što CAST framework konkretno radi?
CAST (Case-driven framework) tretira historical execution trajectories kao structured information umjesto samo example outputs za few-shot; ekstrahira complexity profile signale, mapira failure patterns na structural vulnerabilities i konvertira to znanje u targeted reward mechanism koji model autonomno usvaja kroz reinforcement learning.
Na kojim benchmarcima su rezultati testirani?
Tim evaluira CAST framework na BFCLv2 (Berkeley Function Calling Leaderboard v2) i ToolBench datasetovima; rezultati pokazuju do +5,85 postotnih bodova overall execution accuracy improvement, 26 % redukciju average reasoning length-a, i significantly smanjenu učestalost high-impact structural failures.