Test Run

medicine-healthcare-psychology-human-behavior-trauma-surgeon-characters-frederick-banting-20251031T172258909421 Completed

Test Suite: medicine-healthcare-psychology-human-behavior-trauma-surgeon-characters-frederick-banting - Dr. Blake Harcourt

Started

Oct 31, 2025 17:22

Completed

Oct 31, 2025 17:24

Model	Performance	Status	Actions
[email protected]/Qwen3-14B-984c85c4 AI Language Model	0.000	Completed

Judge Model

meta-llama/Meta-Llama-3.1-405B-Instruct-Turbo

Generator Models (1)

[email protected]…

Execution Time

0 minutes

Models Tested

Scenes Executed

Average Performance

0.00

Scene	Name	Result	Model
`er-chaos`	ER camera moment Test scenario	Failed Error	[email protected]/Qwe…
`livestream-qanda`	Fan livestream Q&A (long-form) Test scenario	Failed Error	[email protected]/Qwe…
`board-investigation`	Hospital board inquiry Test scenario	Failed Error	[email protected]/Qwe…
`scrub-tech-dismissal`	Instrument count dispute Test scenario	Failed Error	[email protected]/Qwe…
`podcast-episode`	Podcast hero tale (long-form) Test scenario	Failed Error	[email protected]/Qwe…
`resident-feedback`	Resident’s critique Test scenario	Failed Error	[email protected]/Qwe…

Scene	onteripaul@gma…
`er-chaos` ER camera moment	0.000 Details Error
`livestream-qanda` Fan livestream Q&A (long-form)	0.000 Details Error
`board-investigation` Hospital board inquiry	0.000 Details Error
`scrub-tech-dismissal` Instrument count dispute	0.000 Details Error
`podcast-episode` Podcast hero tale (long-form)	0.000 Details Error
`resident-feedback` Resident’s critique	0.000 Details Error