Test Run

marc-marquez-20251010T084803452044 Completed

Started

Oct 10, 2025 08:48

Completed

Oct 10, 2025 08:48

Model	Performance	Status	Actions
[email protected]/Qwen2.5-7B-Instruct-521d3af9 AI Language Model	0.214	Completed

Judge Model

meta-llama/Meta-Llama-3.1-405B-Instruct-Turbo

Generator Models (1)

[email protected]…

Execution Time

0 minutes

Models Tested

Scenes Executed

Average Performance

0.21

Scene	Name	Score	Result	Model
`scene_1`	The Injury Test scenario	0.000	Failed Error	[email protected]/Qwe…
`scene_2`	Recovery Test scenario	0.000	Failed Error	[email protected]/Qwe…
`scene_3`	Why? Test scenario	0.000	Failed Error	[email protected]/Qwe…
`scene_4`	Resolve Test scenario	0.857	Passed	[email protected]/Qwe…