Test Run

agent-victor-hargrove-billionaire-v1-20251029T064349839147 Completed

Test Suite: agent-victor-hargrove-billionaire-v1 - Victor Hargrove

Started

Oct 29, 2025 06:43

Completed

Oct 29, 2025 06:43

Model Results

Model	Performance	Status
deepseek/deepseek-r1-distill-qwen-14b AI Language Model	0.692	Completed
google/gemini-2.5-flash AI Language Model	0.639	Completed
google/gemma-3-12b-it AI Language Model	0.668	Completed
meta-llama/llama-3.1-8b-instruct AI Language Model	0.306	Completed
microsoft/phi-3.5-mini-128k-instruct AI Language Model	0.183	Completed
microsoft/phi-3-medium-128k-instruct AI Language Model	0.010	Completed
mistralai/mistral-7b-instruct AI Language Model	0.668	Completed
neversleep/noromaid-20b AI Language Model	0.100	Completed
qwen/qwen-2.5-7b-instruct AI Language Model	0.758	Completed
qwen/qwen3-14b AI Language Model	0.686	Completed
qwen/qwen3-8b AI Language Model	0.831	Completed

Run Details

Judge Model

openai/gpt-5-mini

Generator Models (11)

google/gemini-2.5-f… qwen/qwen-2.5-7b-in… qwen/qwen3-14b qwen/qwen3-8b mistralai/mistral-7… microsoft/phi-3-med… meta-llama/llama-3.… google/gemma-3-12b-… microsoft/phi-3.5-m… deepseek/deepseek-r… neversleep/noromaid…

Execution Time

0 minutes

Download Results

Quick Stats

Models Tested

Scenes Executed

Average Performance

0.69

Scene Results

Scene	Name	Score	Result	Model
No scene results found