Test Run

marc-marquez-20251010T112540007594 Completed

Started

Oct 10, 2025 11:25

Completed

Oct 10, 2025 11:26

Model	Performance	Status	Actions
[email protected]/Qwen3-8B-da5790fa AI Language Model	0.702	Completed

Judge Model

meta-llama/Meta-Llama-3.1-405B-Instruct-Turbo

Generator Models (1)

[email protected]…

Execution Time

0 minutes

Models Tested

Scenes Executed

Average Performance

0.70

Scene	Name	Score	Result	Model
`scene_1`	The Injury Test scenario	0.735	Failed	[email protected]/Qwe…
`scene_2`	Recovery Test scenario	0.650	Failed	[email protected]/Qwe…
`scene_3`	Why? Test scenario	0.605	Failed	[email protected]/Qwe…
`scene_4`	Resolve Test scenario	0.817	Passed	[email protected]/Qwe…