LangChain harness profili: +20pp tau2-benchu

LangChain je 29. travnja 2026. predstavio sustav harness profila za Deep Agents koji omogućava istom kodu rad s Anthropic, OpenAI i Google modelima bez izmjena. Profil automatski primjenjuje model-specifične system promptove, alate i middleware. Na tau2-benchu GPT-5.3 Codex je s 33 % točnosti porastao na 53 %, a Claude Opus 4.7 s 43 % na 53 % — istraživači zaključuju da jedinstveni harness ne može biti optimalan za svaki model.

LangChain je 29. travnja 2026. predstavio harness profile sustav za svoju Deep Agents biblioteku. Sustav rješava problem koji se pojavio kako su agenti počeli mijenjati LLM-ove u produkciji: jedinstvena konfiguracija system prompta, alata i middlewarea koja optimalno radi s jednim modelom obično daje slabije rezultate s drugim. LangChain zaključuje da harness ne smije biti dijeljen — svaki model treba svoj.

Što harness profile mijenjaju u Deep Agentu?

Profil je konfiguracija koja inkapsulira tri stvari: model-specifični system prompt (struktura, ton, primjeri), set alata u formatu koji LLM najbolje razumije, te middleware logiku (npr. kako se rezultat alata vraća u sljedeći turn). Programer u kodu samo zamijeni profil — pozivni kod ostaje isti. Trenutni built-in profili pokrivaju Anthropic, OpenAI i Google modele, a zajednica može doprinijeti vlastite za druge dobavljače.

Koliko se točno popravljaju rezultati na tau2-benchu?

LangChain je testirao prije/poslije na tau2-benchu, standardnoj evaluaciji za long-horizon agente. GPT-5.3 Codex je porastao s 33 % točnosti na 53 % (+20 postotnih bodova), a Claude Opus 4.7 s 43 % na 53 % (+10 postotnih bodova). Oba modela završavaju na istoj točnosti ali iz različitih početnih pozicija. Pomak je značajan u oba slučaja jer pokazuje da default LangChain harness nije bio optimalan za niti jedan model.

Što ovo znači za multi-model pipeline?

Komentar LangChaina sažima sve: “A single harness can’t be optimal for every model.” Razvojni timovi koji u produkciji koriste više modela paralelno (npr. Claude za reasoning, GPT za coding, Gemini za multimodalne zadatke) sada mogu koristiti istu Deep Agents arhitekturu uz dobitak desetaka postotnih bodova bez prepisivanja koda. Pristup se uklapa u širi industrijski trend infrastructure layer-a za agente: AWS Bedrock AgentCore, Anthropic Claude Code i Mistral Vibe ovog tjedna idu u istom smjeru — standardizacija agent stacka uz dobavljačevu fleksibilnost.

Česta pitanja

Što je harness profile u LangChain Deep Agents?

Konfiguracija koja sadrži model-specifični system prompt, set alata i middleware opcije. Programer odabere profil ovisno o tome koji LLM koristi, a isti pozivni kod radi s Anthropic, OpenAI i Google modelima bez izmjena.

Koliko harness profil poboljšava performance?

Na tau2-benchu GPT-5.3 Codex je porastao s 33 % na 53 % točnosti (+20 postotnih bodova), a Claude Opus 4.7 s 43 % na 53 % (+10 postotnih bodova). Oba modela završavaju na istoj razini ali su krenuli s različitih baselineova.

Zašto jedinstveni harness ne radi?

Različiti modeli različito reagiraju na sustav promptove, format alata i middleware logiku. Anthropic modeli preferiraju strukturne XML upute, OpenAI bolje radi s function calling shemama, Google modeli imaju vlastiti format. Profil oblikuje sve to po modelu.

LangChain harness profili za Deep Agents: GPT-5.3 Codex skoči s 33 % na 53 % na tau2-benchu, Opus 4.7 s 43 % na 53 %

Što harness profile mijenjaju u Deep Agentu?

Koliko se točno popravljaju rezultati na tau2-benchu?

Što ovo znači za multi-model pipeline?

Česta pitanja

Izvori

Povezane vijesti