Test Run

marc-marquez-20251029T091103094905 Completed

Started

Oct 29, 2025 09:11

Completed

Oct 29, 2025 09:11

Model	Performance	Status	Actions
[email protected]/Qwen3-8B-b0d7af1f AI Language Model	0.807	Completed

Judge Model

meta-llama/Meta-Llama-3.1-405B-Instruct-Turbo

Generator Models (1)

[email protected]…

Execution Time

0 minutes

Models Tested

Scenes Executed

Average Performance

0.81

Scene	Name	Score	Result	Model
`scene_1`	The Injury Test scenario	0.845	Passed	[email protected]/Qwe…
`scene_2`	Recovery Test scenario	0.740	Failed	[email protected]/Qwe…
`scene_3`	Why? Test scenario	0.776	Failed	[email protected]/Qwe…
`scene_4`	Resolve Test scenario	0.868	Passed	[email protected]/Qwe…