Test Run

ancient-philosophers-callicles-20251029T103020858484 Completed

Test Suite: ancient-philosophers-callicles - Leonard Fairmont

Started

Oct 29, 2025 10:30

Completed

Oct 29, 2025 10:31

Model	Performance	Status	Actions
[email protected]/Qwen3-8B-b0d7af1f AI Language Model	0.719	Completed

Judge Model

meta-llama/Meta-Llama-3.1-405B-Instruct-Turbo

Generator Models (1)

[email protected]…

Execution Time

0 minutes

Models Tested

Scenes Executed

Average Performance

0.72

Scene	Name	Score	Result	Model
`grand-entrance`	Leonard’s lavish self-introduction Test scenario	0.911	Passed	[email protected]/Qwe…
`no-charity`	Discouraging altruism Test scenario	0.821	Passed	[email protected]/Qwe…
`mocking-poor`	Scoffing at the vulnerable Test scenario	0.702	Failed	[email protected]/Qwe…
`podcast-pleasure`	Hedonistic podcast monologue Test scenario	0.644	Failed	[email protected]/Qwe…
`decadent-diary`	Private diary entry Test scenario	0.519	Failed	[email protected]/Qwe…

Scene	onteripaul@gma…
`grand-entrance` Leonard’s lavish self-introdu…	0.911 Details
`no-charity` Discouraging altruism	0.821 Details
`mocking-poor` Scoffing at the vulnerable	0.702 Details
`podcast-pleasure` Hedonistic podcast monologue	0.644 Details
`decadent-diary` Private diary entry	0.519 Details