Na kojim benchmarcima su rezultati testirani?

Tim evaluira CAST framework na BFCLv2 (Berkeley Function Calling Leaderboard v2) i ToolBench datasetovima; rezultati pokazuju do +5,85 postotnih bodova overall execution accuracy improvement, 26 % redukciju average reasoning length-a, i significantly smanjenu učestalost high-impact structural failures.

arXiv CAST: +5,85pp tool use kroz case-based RL

Q: Što CAST framework konkretno radi?

CAST (Case-driven framework) tretira historical execution trajectories kao structured information umjesto samo example outputs za few-shot; ekstrahira complexity profile signale, mapira failure patterns na structural vulnerabilities i konvertira to znanje u targeted reward mechanism koji model autonomno usvaja kroz reinforcement learning.

CAST je novi arXiv paper objavljen 14. svibnja 2026. autora Renning Pang, Tian Lan, Leyuan Liu, Piao Tong, Sheng Cao i Xiaosong Zhang koji uvodi case-based calibration framework za LLM tool use. Pristup tretira historical execution trajectories kao structured information za reinforcement learning — postiže do +5,85 postotnih bodova execution accuracy improvement nad BFCLv2 baseline-om i 26 % redukciju average reasoning length-a.

Renning Pang, Tian Lan, Leyuan Liu, Piao Tong, Sheng Cao i Xiaosong Zhang objavili su 14. svibnja 2026. na arXivu paper koji predstavlja CAST (Case-driven framework) — novi pristup tool use calibration-u za LLM agente. Glavna tvrdnja: do +5,85 postotnih bodova BFCLv2 accuracy improvement uz 26 % redukciju reasoning length-a.

Što je tool use calibration problem?

LLM agenti koji koriste external tools (function calling, API pozivi, code execution) suočavaju se s dvojakim izazovom:

Reasoning depth — koliko deeply razmišljati prije svake tool invokacije
Structural validity — pridržavati se tool schema (parameter types, required fields, format)

Naivni pristup: više reasoning + više validation = bolji rezultati. Praktično: to dramatic skaplja inference cost i ne garantira pravu accuracy improvement. Treba pametniji pristup koji kalibrira reasoning depth prema task complexity-u.

Što CAST framework konkretno radi?

CAST tretira historical execution trajectories kao structured information umjesto samo few-shot examples:

Complexity profile extraction — analizira past cases za identifikaciju koje task characteristike zahtijevaju koliko reasoning depth
Failure pattern mapping — povezuje strukturne propuste (krivi parameter format, missing required fields) s task profile značajkama
Targeted reward conversion — pretvara to znanje u reinforcement learning reward signals umjesto static prompt engineering

Krajnji rezultat: model autonomno usvaja case-based strategije kroz RL training, a ne kroz inference-time prompt manipulation.

Po čemu se razlikuje od existing few-shot approach-a?

Standard few-shot tool use:

Korisnik provides 3-5 example tool calls u prompt-u
Model “imitira” pattern kroz in-context learning
Limited - ne adapter na novel cases

CAST pristup:

Treningom internalizira statistics historical cases (a ne pojedinačne primjere)
Razvija adaptive policy koji bira reasoning depth per-task
Generalizira na unseen task distributions zbog complexity profile abstraction-a

Pristup je sličan curriculum learning u RL — model uči ne samo “što napraviti” već i “kako odlučiti koliko truda investirati”.

Koji su konkretni benchmark rezultati?

Tim evaluira na dva benchmarka:

BFCLv2 (Berkeley Function Calling Leaderboard v2) — industry standard za function calling evaluation
ToolBench — komplementarni benchmark s diverse tool ecosystem-om

Headline rezultati:

Up to +5,85 percentage points overall execution accuracy improvement
26 % decrease in average deliberation length
Significantly reduces high-impact structural failures (krivi parameter types, missing required fields)

Razlika između “small accuracy gain” i “+5,85pp” je dramatic — frontier model leaderboardi tipično measure gains u 1-2pp inkrementima. 5,85pp je strong signal da pristup adresira fundamental optimization opportunity koji prethodni rad nije iskoristio.

Što ovo znači za production agent deployments?

CAST findings imaju direktne implikacije za enterprise agent systems:

Trening pristup — production teams mogu fine-tunirati open-source tool use modele (Llama, Qwen, DeepSeek) na svojim historical execution logs umjesto da plaćaju frontier API
Inference savings — 26 % token reduction je značajna ušteda za high-volume agent deployments
Reliability — smanjenje structural failures je kritično za mission-critical workflows gdje failed tool call može imati downstream consequences

Paper se uklapa u 2026. trend specialized RL training za agentic systems: GraphFlow formal verification (15.5.), Microsoft AI Delegation Reliability (15.5.), Dual-Dimensional Consistency (14.5.). Svi dijele zaključak: mainstream RLHF pristup nije dovoljan za production agentic workloads — trebaju specialized training objektive koji optimiziraju za task-specific reliability metrics, ne general preference alignment.

arXiv:2605.15041 CAST framework: case-based calibration LLM tool use postiže +5,85pp BFCLv2 i -26 % reasoning length

Što je tool use calibration problem?

Što CAST framework konkretno radi?

Po čemu se razlikuje od existing few-shot approach-a?

Koji su konkretni benchmark rezultati?

Što ovo znači za production agent deployments?

Česta pitanja

Izvori

Povezane vijesti