Run Benchmark
Form settings are aligned with CLI defaults.
Active job
idle
0 / 0
No active run
Open run details
Датасеты
Файлы из директории bench/datasets/
| Название | Строк | Размер | Путь |
|---|
Модели
Реестр моделей для запуска и оценки (judge)
| Название | Model ID | Provider | Base URL | Тип | Judge |
|---|
Leaderboard
Click a row to expand run details.
Pass
Needs attention
No threshold
Generation vs Retrieval
X: generation_score, Y: retrieval_score. Click a point to open run details.
Best score
Second score
Other runs
Нет запусков с метриками generation_score/retrieval_score.
Нажмите на точку, чтобы открыть результаты соответствующего эксперимента.
LLM Performance Benchmark
Measure throughput and latency under concurrent load.
Active job
idle
0 / 0
No active run
Results
Select a run to view charts.