ES EN
Cómo se usa

Reportes y dashboard

Cómo leer los resultados de una evaluación, dónde mirar las tendencias y cómo exportar reportes para auditoría.

Dashboard general

El Dashboard es la vista de entrada después del login. Resume lo que está pasando en tu organización:

El uso de tu plan (tokens consumidos, generaciones IA, etc.) y la gestión de plan se ven en Billing & Plan — ver Planes y pricing → Billing & Plan.

Evaluation Report (por Run)

Cada Run evaluado genera un Evaluation Report. Ve a Execution → Evaluations y haz clic en el run.

Evaluation Report con pass rate, performance por test case y scores por evaluador
Estructura del Evaluation Report: pass rate respecto al threshold, barra por cada test case, y la grilla con los scores de cada evaluador activado.

Qué muestra

Exportar a PDF

Botón PDF Report en la parte superior. Genera un PDF con:

El PDF está pensado para circular dentro del equipo o como entregable a stakeholders.

Reporte mejorado con IA (Enterprise)

Solo en plan Enterprise. Sobre el Evaluation Report, la plataforma agrega un análisis automático con IA:

El reporte mejorado se anexa al PDF estándar.

Tendencias y comparativa entre runs

El dashboard muestra la evolución del score general a lo largo de los runs. Esto te permite ver si la calidad está mejorando, manteniéndose o degradándose entre releases.

Cada run individual se puede inspeccionar y exportar.

Snapshots inmutables y reproducibilidad

El sistema mantiene dos niveles de "fotos" inmutables:

Esto significa que un reporte generado hace 6 meses sigue idéntico hoy, aunque hayas cambiado los Test Cases, el agente de IA o los evaluadores. Es la base de la auditabilidad.

Reproducibilidad: cuidado con esperar resultados idénticos

El snapshot es inmutable, pero si re-ejecutas el mismo Test Plan, las respuestas del agente de IA pueden ser distintas porque hay un LLM detrás del agente de IA, y los LLMs no son deterministas. Lo mismo aplica a evaluación: si vuelves a evaluar el mismo Run, los scores pueden cambiar porque también hay un LLM detrás de cada evaluador.

Sobre un mismo Run puedes correr N evaluaciones distintas a lo largo del tiempo (con distintos evaluadores activos, o simplemente para volver a calificar). Todas quedan guardadas como snapshots independientes.

Score Overrides: corrección manual con auditoría

Si no estás de acuerdo con el score que dio un evaluador para un caso puntual, puedes editarlo manualmente. La plataforma:

El listado completo de overrides aplicados en tu organización se ve en Execution → Score Overrides. Esto te permite mantener auditoría completa: las modificaciones existen pero quedan trazadas.

Cómo leer un score

Los evaluadores devuelven valores entre 0 y 1 internamente, pero la plataforma los muestra en pantalla como porcentaje (0–100%) para que sean más fáciles de leer. Como guía general:

El umbral pass/fail es configurable por evaluador en Configuration → Evaluators/Judges. Cada evaluador trae un threshold razonable por default que puedes ajustar a tu criterio.

💡 Buena práctica. Mira primero el score general. Después abre los evaluadores con peor performance. Después lee los 3–5 casos peor calificados de esos evaluadores. Eso te da el 80% del insight con el 20% del esfuerzo.

Compartir un reporte

Hay dos formas:

Los miembros de tu organización también pueden abrir un run directamente por URL — copiala de la barra de direcciones del browser y pasala; quien la reciba tiene que estar logueado y ser miembro de la misma organización para verlo. Hoy no hay un botón dedicado de "Compartir".

Próximo paso

Si quieres ver cómo conectar ArtificialQA con otras herramientas (CI, gestores de tickets, notificaciones), pasa a la sección de Integraciones.