Test Run

medicine-healthcare-psychology-human-behavior-trauma-surgeon-characters-mary-edwards-walker-20251209T000215373366 Completed

Test Suite: medicine-healthcare-psychology-human-behavior-trauma-surgeon-characters-mary-edwards-walker - Dr. Marcus Hale

Started

Dec 09, 2025 00:02

Completed

Dec 09, 2025 00:02

Model	Performance	Status
meta-llama/llama-3.1-8b-instruct AI Language Model	0.319	Completed
mistralai/mistral-7b-instruct AI Language Model	0.701	Completed
qwen/qwen-2.5-7b-instruct AI Language Model	0.466	Completed
qwen/qwen3-14b AI Language Model	0.610	Completed
qwen/qwen3-8b AI Language Model	0.686	Completed

Judge Model

openai/gpt-5-mini

Generator Models (5)

qwen/qwen-2.5-7b-in… qwen/qwen3-14b qwen/qwen3-8b mistralai/mistral-7… meta-llama/llama-3.…

Execution Time

0 minutes

Models Tested

Scenes Executed

Average Performance

0.32

Scene	Name	Score	Result	Model
No scene results found