ES EN
Cómo se usa

Evaluar las respuestas

17 evaluadores LLM calibrados que juzgan respuestas no determinísticas, con asserts determinísticos opcionales como complemento para verificaciones exactas.

Cómo funciona la evaluación

Las respuestas de los agentes de IA (chatbots, asistentes, copilotos) son no determinísticas: la misma pregunta puede generar varias respuestas válidas con distinta calidad, tono o precisión. La evaluación de ArtificialQA está diseñada específicamente para eso — juzgar lenguaje con lenguaje, usando evaluadores LLM calibrados.

Cuando además necesitas verificaciones exactas (un código específico, una frase, un response time, un JSON con cierta estructura), puedes sumar asserts determinísticos como complemento.

🧠
Evaluadores LLM — la capa principal
Un modelo califica cada respuesta en una dimensión específica (tono, precisión, alucinación, etc.). Devuelve un score decimal 0–1 + justificación textual. 17 evaluadores calibrados.
🔧
Asserts determinísticos — complemento opcional
Verificaciones programáticas: contains, regex, JSON Schema, response_time, etc. No usan IA. Baratas, instantáneas y reproducibles 100%. Útiles cuando algo tiene que matchear exactamente.

Cómo pensarlo:

Los 17 evaluadores LLM

Cada evaluador es un prompt afinado más un modelo. Devuelven internamente un score decimal entre 0 y 1, que la plataforma te muestra en pantalla como porcentaje (0–100%), junto con una explicación textual.

SlugQué mide
comparisonComparación entre la respuesta obtenida y la respuesta esperada (similitud semántica).
completenessSi la respuesta cubre todo lo que pide la pregunta.
concisenessSi la respuesta es lo suficientemente breve sin perder lo esencial.
formalityAdecuación del registro formal/informal al contexto.
biasPresencia de sesgo (de género, racial, etario, etc.).
toneTono apropiado al canal y al usuario.
empathyNivel de empatía cuando el usuario expresa frustración o vulnerabilidad.
securityRiesgos de seguridad (filtración de datos, prompt injection, etc.).
inappropriate_contentContenido inapropiado, ofensivo o fuera de scope.
error_handlingCómo maneja errores, ambigüedad del usuario o inputs inesperados.
ambiguitySi la respuesta resuelve o introduce ambigüedad.
fluencyNaturalidad y fluidez del lenguaje.
data_accuracyExactitud de los datos puntuales mencionados (precios, fechas, números).
hallucinationInformación inventada o no respaldada por contexto.
escalationSi escala correctamente a humano cuando corresponde.
languageQue la respuesta esté en el idioma esperado.
consistencyCoherencia interna y a lo largo de la conversación.

Cómo se evalúa una corrida

Después de ejecutar un Test Plan, los Runs completados aparecen en la pestaña Ready to Evaluate de la página de Evaluations. Para evaluar:

  1. Ve a Execution → Evaluations.
  2. Selecciona el Run.
  3. Clic en Evaluate.
  4. Elige qué evaluadores activar (no necesariamente todos los 17 — usa los que tengan sentido para tu dominio).
  5. Clic en Start Evaluation.

Cada respuesta del Run se le pasa a cada evaluador seleccionado, en paralelo. Cuando termina, el Run pasa a estado Evaluated y el reporte queda disponible.

💰 Tokens. La fase de evaluación consume tokens del pool de tu plan. Cuanto más evaluadores activos × más respuestas a evaluar, más consumo.

Score, peso y cómo se decide el pass/fail

Cada respuesta × cada evaluador genera:

📊 Cómo leer los scores: más alto siempre es mejor. Todos los evaluadores normalizan su salida para que un score más cercano a 1 (100%) siempre signifique "bueno", sin importar qué mide la dimensión. Esto vale incluso para evaluadores cuyo nombre podría sugerir lo opuesto:
  • Bias: 100% significa sin sesgo detectado (no "mucho sesgo").
  • Security: 100% significa seguro, sin problemas de seguridad.
  • Inappropriate content: 100% significa no hay contenido inapropiado.
  • Hallucination: 100% significa no se detectó alucinación (la respuesta se mantuvo en los hechos).
De esta forma el promedio ponderado siempre tiende a 1 (100%) cuando el agente funciona bien — haciendo que el pass/fail sea uniforme entre los 17 evaluadores.
Evaluation Report con scores por evaluador
Vista de evaluación — pass rate, threshold, performance por test case y un círculo por cada uno de los 17 evaluadores (Consistency 100%, Inappropriate Content 100%... Hallucination 16%).

El pass/fail se calcula en dos niveles, ambos controlados por umbrales a nivel organización (defaults: 0.70 para case, 0.80 para plan):

  1. Por test case: promedio ponderado de los scores de todos los evaluadores activados. Si el promedio ≥ caseThreshold → el test case pasa. Cada evaluador tiene un peso configurable (en Configuration → Evaluators/Judges) que define cuánto influye en el score del case.
  2. Por plan: cantidad de test cases que pasaron sobre el total. Si el pass rate ≥ planThreshold → el plan pasa.

Ambos thresholds se configuran en el mismo panel — Configuration → Evaluators/Judges, bajo "Evaluation Thresholds" — como dos sliders (defaults: 70% para case, 80% para plan).

No hay un pass/fail individual por evaluador. Los scores se muestran en bandas de color solo como ayuda visual — verde cuando el score está al nivel o por encima del threshold de case, ámbar cuando está borderline, rojo cuando está por debajo — pero solamente el promedio ponderado define el veredicto real.

Los evaluadores vienen calibrados

Un evaluador LLM no es confiable por default — distintos modelos, prompts y temperaturas dan puntajes distintos. Por eso, los 17 evaluadores que usas en ArtificialQA vienen pre-calibrados por nuestro equipo: validamos cada uno contra datasets de referencia para garantizar que sus scores sean confiables y consistentes. Tú no tienes que calibrar nada — viene listo para usar.

Más detalle del proceso de calibración interna en Seguridad y compliance.

Detección automática de PII

Independiente de los evaluadores LLM, ArtificialQA escanea automáticamente cada test case en busca de PII (información personal identificable):

Cuando se detecta PII, el test case queda marcado con un pequeño ícono de escudo en el listado de test cases, y podés filtrar la lista por "PII detected" para revisarlos rápido. Hoy esto funciona como una señal informativa — no afecta el pass/fail y no se incluye en los reportes de evaluación.

Cuándo usar qué evaluador

Como referencia y a modo de orientación, estos son combos típicos por dominio. No son obligatorios ni exclusivos — tú eliges qué evaluadores activar según las dimensiones que te importen para tu agente:

Puedes combinar de cualquier manera, e ir ajustando con la experiencia de tus primeras corridas.

Re-evaluar y Score Overrides

Sobre un mismo Run puedes correr varias evaluaciones a lo largo del tiempo — con distintos evaluadores activos, o simplemente para volver a calificar. Cada evaluación queda guardada como snapshot independiente. Como hay un LLM detrás de cada evaluador, dos evaluaciones del mismo run pueden dar scores distintos.

Si no estás de acuerdo con un score puntual, puedes editarlo manualmente (Score Override). La plataforma marca el score como "modificado", conserva el original en el historial y registra quién, cuándo y por qué. La auditoría queda intacta. El listado de todos los overrides está en Execution → Score Overrides.

Próximo paso

Una vez evaluado el Run, lo siguiente es interpretar los resultados. Eso lo cubre la sección de Reportes y dashboard.