Kérdések & értékelés
A funkcionális értékelő készlet és a futtatás eredménye: routing pontosság, determinisztikus tartalmi helyesség és (másodlagos) LLM-judge.
Még nincs értékelési eredmény. Indítsd el a futtatást a fenti gombbal.
A funkcionális értékelő készlet és a futtatás eredménye: routing pontosság, determinisztikus tartalmi helyesség és (másodlagos) LLM-judge.