Test Run

marc-marquez-20251010T133123214836 Completed

Started

Oct 10, 2025 13:31

Completed

Oct 10, 2025 13:31

Model	Performance	Status	Actions
[email protected]/Qwen3-14B-e66d90ff AI Language Model	0.682	Completed

Judge Model

meta-llama/Meta-Llama-3.1-405B-Instruct-Turbo

Generator Models (1)

[email protected]…

Execution Time

0 minutes

Models Tested

Scenes Executed

Average Performance

0.68

Scene	Name	Score	Result	Model
`scene_1`	The Injury Test scenario	0.689	Failed	[email protected]/Qwe…
`scene_2`	Recovery Test scenario	0.548	Failed	[email protected]/Qwe…
`scene_3`	Why? Test scenario	0.662	Failed	[email protected]/Qwe…
`scene_4`	Resolve Test scenario	0.830	Passed	[email protected]/Qwe…